chore(dgx): snapshot consolidation WIP pour transfert poc DGX
Some checks failed
tests / Lint (ruff + black) (push) Failing after 1m44s
tests / Tests unitaires (sans GPU) (push) Failing after 1m49s
tests / Tests sécurité (critique) (push) Has been skipped

Regroupe le WIP non committé requis pour le clone/runtime DGX (Option A) :
- api_stream.py : préflight replay + smoke santé modèles + handler 403 WP-B
- de-hardcode VLM : vlm_config, gpu/*, vram_orchestrator, ollama_manager
- stream_processor, semantic_matcher, agent_chat (app/planner/intent)
- workflows.db (acquis ; le transfert artifacts le mettra à jour + rewrite chemins)
- docs : plans DGX, benchmarks VLM/grounders, recherche SOTA, coordination 8 juin

Snapshot destiné à la branche poc-dgx poussée sur Gitea pour cloner le DGX.
Scan anti-secret : clean. graphify (repo embarqué) exclu.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
Dom
2026-06-08 16:33:58 +02:00
parent f18de016d7
commit 6d34b3cb68
204 changed files with 15744 additions and 47 deletions

View File

@@ -6,6 +6,16 @@ Deux modes :
- REPLAY : VLM raisonnement (cf. get_reasoning_model) chargé, services non-essentiels stoppés
Bascule automatique ou manuelle selon le contexte.
⚠️ LIMITE POST-DGX (2026-06-05) — DETTE CONNUE :
Cet orchestrateur a été conçu pour un Ollama **local** : le `sudo systemctl
restart ollama` (switch_to_replay / switch_to_shadow) et `nvidia-smi`
(get_free_vram_gb / get_used_vram_gb) ne ciblent que la machine locale.
Or Ollama tourne désormais sur le **DGX via tunnel SSH** (OLLAMA_URL pointe
le tunnel). Dans ce cas le restart local est **inopérant** : il ne purge PAS
la VRAM des VLM distants et nvidia-smi mesure le GPU local, pas celui du DGX.
À rendre conditionnel (tunnel distant vs Ollama local) avant tout usage en
mode DGX — logique runtime inchangée ici (correction = décision Dom).
"""
import logging