chore(dgx): snapshot consolidation WIP pour transfert poc DGX
Regroupe le WIP non committé requis pour le clone/runtime DGX (Option A) : - api_stream.py : préflight replay + smoke santé modèles + handler 403 WP-B - de-hardcode VLM : vlm_config, gpu/*, vram_orchestrator, ollama_manager - stream_processor, semantic_matcher, agent_chat (app/planner/intent) - workflows.db (acquis ; le transfert artifacts le mettra à jour + rewrite chemins) - docs : plans DGX, benchmarks VLM/grounders, recherche SOTA, coordination 8 juin Snapshot destiné à la branche poc-dgx poussée sur Gitea pour cloner le DGX. Scan anti-secret : clean. graphify (repo embarqué) exclu. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -6,6 +6,16 @@ Deux modes :
|
||||
- REPLAY : VLM raisonnement (cf. get_reasoning_model) chargé, services non-essentiels stoppés
|
||||
|
||||
Bascule automatique ou manuelle selon le contexte.
|
||||
|
||||
⚠️ LIMITE POST-DGX (2026-06-05) — DETTE CONNUE :
|
||||
Cet orchestrateur a été conçu pour un Ollama **local** : le `sudo systemctl
|
||||
restart ollama` (switch_to_replay / switch_to_shadow) et `nvidia-smi`
|
||||
(get_free_vram_gb / get_used_vram_gb) ne ciblent que la machine locale.
|
||||
Or Ollama tourne désormais sur le **DGX via tunnel SSH** (OLLAMA_URL pointe
|
||||
le tunnel). Dans ce cas le restart local est **inopérant** : il ne purge PAS
|
||||
la VRAM des VLM distants et nvidia-smi mesure le GPU local, pas celui du DGX.
|
||||
À rendre conditionnel (tunnel distant vs Ollama local) avant tout usage en
|
||||
mode DGX — logique runtime inchangée ici (correction = décision Dom).
|
||||
"""
|
||||
|
||||
import logging
|
||||
|
||||
Reference in New Issue
Block a user