# Plan stabilisation demo Lea — cible lundi 1 juin 2026

Date de cadrage : 2026-05-25 12:44 Europe/Paris
Pilotage : Codex
Contexte : la demo client est reportee au lundi 1 juin 2026. On sort du mode rustine J-4 et on vise un systeme propre, mesurable, restaurable.

## Principes

1. Pas de restauration destructive ni suppression de modele sans inventaire et accord explicite.
2. Pas de replay live tant que les chemins pause/resume, FeedbackBus et perf ne sont pas instrumentes.
3. Les changements doivent avoir une preuve : test, commande de healthcheck, log cible, ou bench.
4. `C:\rpa_vision` reste le runtime Windows reel ; ne pas resynchroniser `agent_v0/deploy/windows_client`.
5. Les collegues repondent dans `docs/coordination/inbox_codex/` avec ACK/NACK explicite.

## P0 — Inventaire et protection Ollama

Objectif : garantir que les modeles critiques existent, sont referencables, et peuvent etre reconstruits si un tag disparait.

- Figer `ollama list`, manifests, gros blobs, `ollama show --modelfile` des modeles critiques.
- Verifier les artefacts locaux et backup : `t2a-gemma3-27b-q8_0.gguf`, `t2a-gemma3-27b-q4_k_m.gguf`, merged safetensors.
- Produire une table : tag Ollama, digest/blob, source GGUF/HF, backup, statut de reconstruction.
- Identifier les vrais manquants avec Dom si sa liste attendue depasse les 38 tags actuels.

## P0 — FeedbackBus 5004 propre

Objectif : garder la narration temps reel si elle est utile, mais sans bruit log ni service fragile.

- Corriger la cause `rpa-agent-chat.service inactive`.
- Corriger ou isoler le warning CLIP/torch au boot.
- Corriger CORS/SocketIO pour la ChatWindow Windows.
- Conserver le fallback HTTP 5005 pour `resume` / `abort`.
- Decider apres test si `LEA_FEEDBACK_BUS=1` reste actif cote Windows.

## P0 — Performance mesurable

Objectif : remplacer les intuitions par des mesures reproductibles.

- Harness build replay sans live replay : mesure avec/sans `RPA_SKIP_INTENTION_ENRICHMENT`.
- Mesure des appels VLM : modele, `num_ctx`, layers CPU/GPU, p50/p95, taux JSON valide.
- Politique de residence Ollama : `MAX_LOADED_MODELS=1`, modele VLM prechauffe, eviter les swaps texte/VLM.
- Decision documentee : `qwen2.5vl:7b-rpa` vs `qwen2.5vl:7b` vs `qwen2.5vl:3b` vs autre backend.

## P0 — Replay pause/resume robuste

Objectif : zero confusion visible dans Lea.

- La bulle supervisee ne doit plus tronquer le message.
- La bulle doit se fermer a la reprise serveur (`server_cleared`).
- Le compteur et le statut doivent refleter l'etape reelle.
- Smoke Windows obligatoire apres patch deploye.

## P1 — Hygiene runtime/deploiement

Objectif : rendre le systeme re-demarrable sans memoire orale.

- Runbook Linux : `rpa-streaming`, `ollama`, `rpa-agent-chat`.
- Runbook Windows : tache `LeaInteractive`, lock, logs, hash des fichiers deployes.
- Separateur clair : source repo vs runtime `C:\rpa_vision`.

## P1 — Pack de preuve demo

Objectif : arriver lundi avec une preuve concrete, pas seulement du code.

- Healthcheck global : Linux 5005/5004/Ollama + Windows agent.
- Bench perf avant/apres.
- Smoke replay controle, sans improvisation.
- Notes de risques restantes avec mitigation.