chore(dgx): snapshot consolidation WIP pour transfert poc DGX

Regroupe le WIP non committé requis pour le clone/runtime DGX (Option A) : - api_stream.py : préflight replay + smoke santé modèles + handler 403 WP-B - de-hardcode VLM : vlm_config, gpu/*, vram_orchestrator, ollama_manager - stream_processor, semantic_matcher, agent_chat (app/planner/intent) - workflows.db (acquis ; le transfert artifacts le mettra à jour + rewrite chemins) - docs : plans DGX, benchmarks VLM/grounders, recherche SOTA, coordination 8 juin Snapshot destiné à la branche poc-dgx poussée sur Gitea pour cloner le DGX. Scan anti-secret : clean. graphify (repo embarqué) exclu. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-08 16:33:58 +02:00
parent f18de016d7
commit 6d34b3cb68
204 changed files with 15744 additions and 47 deletions
--- a/core/cognition/vram_orchestrator.py
+++ b/core/cognition/vram_orchestrator.py
@@ -6,6 +6,16 @@ Deux modes :
 - REPLAY : VLM raisonnement (cf. get_reasoning_model) chargé, services non-essentiels stoppés

 Bascule automatique ou manuelle selon le contexte.
+
+⚠️ LIMITE POST-DGX (2026-06-05) — DETTE CONNUE :
+Cet orchestrateur a été conçu pour un Ollama **local** : le `sudo systemctl
+restart ollama` (switch_to_replay / switch_to_shadow) et `nvidia-smi`
+(get_free_vram_gb / get_used_vram_gb) ne ciblent que la machine locale.
+Or Ollama tourne désormais sur le **DGX via tunnel SSH** (OLLAMA_URL pointe
+le tunnel). Dans ce cas le restart local est **inopérant** : il ne purge PAS
+la VRAM des VLM distants et nvidia-smi mesure le GPU local, pas celui du DGX.
+À rendre conditionnel (tunnel distant vs Ollama local) avant tout usage en
+mode DGX — logique runtime inchangée ici (correction = décision Dom).
 """

 import logging