# Plan stabilisation demo Lea — cible lundi 1 juin 2026 Date de cadrage : 2026-05-25 12:44 Europe/Paris Pilotage : Codex Contexte : la demo client est reportee au lundi 1 juin 2026. On sort du mode rustine J-4 et on vise un systeme propre, mesurable, restaurable. ## Principes 1. Pas de restauration destructive ni suppression de modele sans inventaire et accord explicite. 2. Pas de replay live tant que les chemins pause/resume, FeedbackBus et perf ne sont pas instrumentes. 3. Les changements doivent avoir une preuve : test, commande de healthcheck, log cible, ou bench. 4. `C:\rpa_vision` reste le runtime Windows reel ; ne pas resynchroniser `agent_v0/deploy/windows_client`. 5. Les collegues repondent dans `docs/coordination/inbox_codex/` avec ACK/NACK explicite. ## P0 — Inventaire et protection Ollama Objectif : garantir que les modeles critiques existent, sont referencables, et peuvent etre reconstruits si un tag disparait. - Figer `ollama list`, manifests, gros blobs, `ollama show --modelfile` des modeles critiques. - Verifier les artefacts locaux et backup : `t2a-gemma3-27b-q8_0.gguf`, `t2a-gemma3-27b-q4_k_m.gguf`, merged safetensors. - Produire une table : tag Ollama, digest/blob, source GGUF/HF, backup, statut de reconstruction. - Identifier les vrais manquants avec Dom si sa liste attendue depasse les 38 tags actuels. ## P0 — FeedbackBus 5004 propre Objectif : garder la narration temps reel si elle est utile, mais sans bruit log ni service fragile. - Corriger la cause `rpa-agent-chat.service inactive`. - Corriger ou isoler le warning CLIP/torch au boot. - Corriger CORS/SocketIO pour la ChatWindow Windows. - Conserver le fallback HTTP 5005 pour `resume` / `abort`. - Decider apres test si `LEA_FEEDBACK_BUS=1` reste actif cote Windows. ## P0 — Performance mesurable Objectif : remplacer les intuitions par des mesures reproductibles. - Harness build replay sans live replay : mesure avec/sans `RPA_SKIP_INTENTION_ENRICHMENT`. - Mesure des appels VLM : modele, `num_ctx`, layers CPU/GPU, p50/p95, taux JSON valide. - Politique de residence Ollama : `MAX_LOADED_MODELS=1`, modele VLM prechauffe, eviter les swaps texte/VLM. - Decision documentee : `qwen2.5vl:7b-rpa` vs `qwen2.5vl:7b` vs `qwen2.5vl:3b` vs autre backend. ## P0 — Replay pause/resume robuste Objectif : zero confusion visible dans Lea. - La bulle supervisee ne doit plus tronquer le message. - La bulle doit se fermer a la reprise serveur (`server_cleared`). - Le compteur et le statut doivent refleter l'etape reelle. - Smoke Windows obligatoire apres patch deploye. ## P1 — Hygiene runtime/deploiement Objectif : rendre le systeme re-demarrable sans memoire orale. - Runbook Linux : `rpa-streaming`, `ollama`, `rpa-agent-chat`. - Runbook Windows : tache `LeaInteractive`, lock, logs, hash des fichiers deployes. - Separateur clair : source repo vs runtime `C:\rpa_vision`. ## P1 — Pack de preuve demo Objectif : arriver lundi avec une preuve concrete, pas seulement du code. - Healthcheck global : Linux 5005/5004/Ollama + Windows agent. - Bench perf avant/apres. - Smoke replay controle, sans improvisation. - Notes de risques restantes avec mitigation.