rpa_vision_v3

Author	SHA1	Message	Date
Dom	9b8bdfdbbe	docs(coordination): sync agent inboxes and active decisions	2026-06-02 16:30:14 +02:00
Dom	f2e9aac6b7	docs: add POC specs, handoffs, and research notes	2026-06-02 16:28:34 +02:00
Dom	2dd306724c	docs(coordination): report no-cli competence test patch	2026-06-01 12:10:01 +02:00
Dom	1a58a0d1f1	docs(coordination): sync dgx no-cli phase1 gaps	2026-06-01 11:59:27 +02:00
Dom	eb2df539f1	docs(poc): revise dgx spark dsi prerequisites docx	2026-06-01 11:04:16 +02:00
Dom	c9f848273b	docs(poc): add minimal dgx spark dsi prerequisites	2026-06-01 10:45:46 +02:00
Dom	45ec5fe969	docs(coordination): answer c gamma clarifications	2026-06-01 10:40:53 +02:00
Dom	8b6c397531	docs(poc): share dgx spark readiness context	2026-06-01 10:37:00 +02:00
Dom	6a300a4298	docs(coordination): add dgx spark multi-poste poc focus	2026-06-01 10:14:27 +02:00
Dom	0587036c17	docs(coordination): dispatch dgx spark poc readiness	2026-06-01 10:05:12 +02:00
Dom	f2a9e40502	docs(coordination): report c gamma dashboard promotion	2026-05-29 21:49:36 +02:00
Dom	bd3aaf7d64	docs(coordination): dispatch c gamma dashboard work	2026-05-29 19:04:58 +02:00
Dom	05a30f2d1d	docs(coordination): propose c gamma writeback decisions	2026-05-29 18:58:12 +02:00
Dom	d515b22d1b	docs(coordination): report c beta supervision	2026-05-29 18:40:03 +02:00
Dom	7ad260d02f	docs(coordination): report c alpha preview	2026-05-29 18:15:30 +02:00
Dom	8332b2cd37	docs(coordination): delegate yaml vwb supervision patch	2026-05-29 17:54:10 +02:00
Dom	9a45e61e2a	docs(coordination): report wait for state runtime	2026-05-29 17:26:35 +02:00
Dom	488d14240a	docs(coordination): report vwb catalog patch	2026-05-29 17:11:02 +02:00
Dom	02211fddf2	docs(coordination): answer lea vwb mapping questions	2026-05-29 16:30:11 +02:00
Dom	ed36bc2b37	docs(coordination): share reflex vwb supervision findings	2026-05-29 14:33:57 +02:00
Dom	9677738f32	docs(coordination): request global review after vwb feedback	2026-05-29 14:05:40 +02:00
Dom	d422aa119c	docs(coordination): require claude qwen vision guardrails	2026-05-29 13:59:39 +02:00
Dom	7b943926db	docs(coordination): clarify vwb learning bridge	2026-05-29 13:46:22 +02:00
Dom	6b8114eb97	docs(coordination): recadre lea direct competence flow	2026-05-29 13:41:18 +02:00
Dom	8ea4ed0ad2	docs(coordination): record supervised competence replay plan	2026-05-29 11:38:51 +02:00
Dom	762e75a077	docs(coordination): record competence catalog integration	2026-05-29 11:29:18 +02:00
Dom	e8a0fb0e42	feat(competences): extract batch candidates	2026-05-29 11:25:00 +02:00
Dom	5ea4960e65	backup: snapshot post-démo GHT 2026-05-19 Some checks failed tests / Lint (ruff + black) (push) Successful in 1m50s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m50s Details tests / Tests sécurité (critique) (push) Has been skipped Details Backup état complet après enregistrement vidéo démo de bout en bout. À utiliser comme point de référence pour la consolidation post-démo. Changements majeurs de la session 18-19 mai : - AIVA-URGENCE : page autonome avec preset URL + auto-focus chain - Workflow Demo_urgence_3_db : merge linux_db + steps AIVA + pause humaine NoMachine - Bypass LLM (static_result / static_text) dans replay_engine pour démos déterministes sans appel Ollama - Fix api_stream:3013 — replay_paused au premier polling /next - dag_execute : lift duration_ms vers top-level pour wait runtime - NPM bypass auth /aiva-urgence/ via location ^~ (proxy_host/10.conf hors git) - scripts/cancel-replays.sh — workaround Stop VWB qui ne purge pas la queue Anchors visuels (468) forcés dans le commit pour garantir restorabilité. DB workflows actuelle + ~12 .bak DB de la journée incluses. Sujets identifiés pour consolidation post-démo (TODO) : 1. Bug VWB recapture anchor ne régénère pas le PNG 2. Léa client accumule état mémoire (restart périodique requis) 3. Stop VWB ne purge pas la queue serveur (lien manquant vers /replay/cancel) 4. Bug coord client mss tronqué 2560x60 → mapping Y cassé 5. delay_before/delay_after ignorés au runtime (fix partiel duration_ms) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 14:55:06 +02:00
Dom	2eeaa806bb	docs(handoff): clôture session 2026-05-09 Session de 6h consacrée au fix DETTE-006 (bug d'échelle pixel grounding). Bilan : 2/5 commits fix faits (smart_resize + refactor parser bbox_2d), 3/5 bloqués par découverte DETTE-010 (divergence factor 28 vs 32 sur checkpoint Qwen3-VL-8B-Instruct, à instruire demain matin). Effets de bord positifs : registre dette technique créé (14 entrées P1/P2/P3), investigation mémoire visuelle orpheline documentée, infra clarifiée (vLLM absent, Transformers direct retenu, checkpoint Qwen3-VL-8B fp16 téléchargé 17 GB). Voir docs/handoffs/2026-05-09_session_audit.md pour détail. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 15:53:26 +02:00
Dom	df5ad59330	docs(dette): MAJ DETTE-010 (config trouvé, divergences) + création DETTE-014 (smart_resize calé sur mauvaise référence) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 15:46:46 +02:00
Dom	ecc5a233a7	docs(dette): création DETTE-013 env tests dev local Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 14:49:57 +02:00
Dom	293e54b4e6	docs(dette): création DETTE-012 (vLLM hors scope) + maj DETTE-010 (cible Transformers + AWQ) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 13:47:21 +02:00
Dom	4df1ba5779	docs(dette): création DETTE-011 bug cv2 Python 3.12 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 12:42:36 +02:00
Dom	e9702b4df9	docs(dette): création DETTE-010 vérif preprocessor_config Qwen3-VL Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 12:08:08 +02:00
Dom	e0b47e4518	docs(refs): commit groupé docs de référence session 2026-05-08 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 11:32:52 +02:00
Dom	5dc20cc85b	docs(dette): rectif mapping DETTE-005 + DETTE-008/009 + investigation mémoire visuelle orpheline Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 11:23:45 +02:00
Dom	88ed103de5	docs(dette): création registre dette technique + 7 entrées rétroactives Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 10:43:27 +02:00
Dom	194853cebb	docs(handoff): clôture session 2026-05-08 3 commits du jour : pré-check OCR réactivé + instrumenté + bug spatial documenté. Plan demain : fix smart_resize vLLM ciblé selon MIGRATION_VLM_PLAN_2026-05-09.md. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 22:33:35 +02:00
Dom	626823d327	docs(bug): pré-check OCR spatialement aveugle - dette identifiée Bug découvert pendant test live du 2026-05-08. _text_match_fuzzy valide la présence du texte dans le crop (560×560 px) sans vérifier sa position au point cliqué. Sur onglets serrés (3 px), valide à tort les clics adjacents. À fixer post-démo Kerella - Option B préférée (bboxes EasyOCR + distance). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 22:31:56 +02:00
Dom	8648e375fe	docs(handoff): session audit 2026-05-08 - controles debranches	2026-05-08 11:37:40 +02:00
Dom	56e869c467	fix(replay): bug TypeError log + flag pré-check OCR off par défaut (démo GHT) Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Diagnostic post-bench E2E (rapport docs/E2E_TEST_RUN_2026-05-08.md) : 1. BUG SILENCIEUX MAJEUR (api_stream.py:4549) — quand le pré-check OCR rejette, mon code de rejet hier soir met x_pct=None / y_pct=None. Le log structuré faisait result.get('x_pct', 0):.4f → None:.4f → TypeError → réponse "analysis_error" qui MASQUE le vrai motif "rejected_text_mismatch". Conséquence : pendant toute la session du 7 mai soir, les rejets pré-check ont été silencieusement transformés en erreurs analyse → cascade locale Léa V1 → clic au pif. Fix : `(result.get('x_pct') or 0):.4f` traite None \| None \| 0 uniformément. 2. FLAG ENV pré-check OFF par défaut — le pré-check _validate_text_at_position introduit hier soir a 2 défauts identifiés par le bench E2E sur 8 click_anchor : * radius_px=200 trop petit pour les tabs à 2 tokens (Examens cliniques, Synthèse Urgences) — OCR voit un crop tronqué "Maquette POC ler en cours Codage Statistiques" qui n'inclut pas "Examens" → fuzzy match 1/2 = 50% < seuil 0.60 → REJET. À radius 300/400 le mot est inclus → match passe. * min_token_ratio=0.60 trop strict pour cibles 2 tokens. Solution démo : flag env RPA_ENABLE_TEXT_PRECHECK (défaut "false"). Le pré-check est désactivé par défaut → retour au comportement stable d'avant-hier (hybrid_text_direct ≥ 0.80 utilisé direct, exemption drift préservée). Code et fonction _validate_text_at_position conservés en place pour reprise post-démo après calibrage radius adaptatif (≈ 0.17 × min(screen_w, screen_h)) et token_ratio descendu à 0.50. Pour ré-activer en dev/test : `RPA_ENABLE_TEXT_PRECHECK=true` dans .env.local ou env du service rpa-streaming. Inclus aussi : - docs/E2E_TEST_RUN_2026-05-08.md (rapport agent test E2E ~1700 mots) - tests/e2e/urgence_aiva_demo_expected.yaml (tolérances re-écrites) - tests/e2e/fixtures/urgence_aiva_demo/live/*.png (8 fixtures recapturées headless 1920x1080 pour itérer demain) - _ocr_inventory.json + _run_resolve_results.json (raw runs) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 10:09:23 +02:00
Dom	f8dc3c3af4	docs(audit): rapport curateur mémoire Claude — santé index 7 mai 2026 Some checks failed tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Audit exhaustif des 101 fichiers .md de ~/.claude/projects/-home-dom-ai-rpa-vision-v3/memory/. Aucun fichier mémoire modifié — diagnostic seul, à valider par Dom. Constats critiques : - MEMORY.md = 273 lignes (limite chargement 200) → ~73 lignes silencieusement perdues à chaque démarrage de session - ~50% des fichiers réels ne sont pas indexés dans MEMORY.md - Référence cassée : MEMORY ligne 257 pointe vers feedback_pull_not_push.md qui n'existe pas - 3 feedback NEW créés le 7 mai (non ajoutés à l'index) sont précisément les règles qui sécurisent la démo GHT jeudi 8 mai : * feedback_orphans_are_projections.md * feedback_verifier_avant_apres_clic.md * architecture_lea_v1_find_text_client.md Risque concret : un Claude futur (sans ces feedback en mémoire active) va reproposer les bourdes que Dom a explicitement nommées hier soir : "re-capturer les ancres" et "nettoyer les modules orphelins". Top 7 feedback proposés en TOP CRITICAL : 1. prendre_le_temps (DEVISE) 2. orphans_are_projections (NEW) 3. verifier_avant_apres_clic (NEW) 4. lea_v1_find_text_client (NEW architecture) 5. ollama_vs_transformers 6. no_rustine 7. anonymisation_stricte Proposition réorganisation 4 zones : - 🔥 TOP CRITICAL ~12 fichiers - 📌 ACTIVE ~25 fichiers - 📚 REFERENCE ~12 fichiers - 🗄️ ARCHIVE ~50 fichiers Compactage cible : MEMORY.md → 150 lignes (marge 50 avant retrigger limite chargement). 4 décisions ouvertes pour Dom (cf rapport §8) : 1. feedback_pull_not_push.md — créer ou supprimer la référence 2. Valider l'archivage des ~45 fichiers proposés 3. Trancher 4 fichiers INCERTAIN (dashboard_config, data_extraction, objectif_6avril, actor_*) 4. Approuver 7 règles de gestion future (1 feedback = 1 violation observée, MEMORY ≤ 180 lignes, rotation sessions > 21j, etc.) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 05:11:08 +02:00
Dom	ca81850a20	docs(audit): rapport médecin DIM senior + TIM sur arbre décisionnel UHCD/Forfait Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Audit du cœur métier de la démo GHT Sud 95 (8 mai 2026), du point de vue d'un médecin DIM senior qui se ferait challenger par le DSI Carvella. Confronte : arbre officiel RPU UHCD IA.pptx (7 slides), code métier agent_chat/urgences_orchestrator.py + core/llm/t2a_decision.py, prompts LLM en place, 11 dossiers anonymisés data.js, bench Dom 18 modèles, référentiels officiels (SFMU 2024, instructions DGOS, arrêtés 2021/2024 ATIH, recommandations IPAQSS). Findings critiques (avant démo) : 1. Bug silencieux modèle — t2a_decision.py:28 met DEFAULT_MODEL=qwen2.5:7b (64 % accuracy au bench Dom) alors que gemma3:27b-cloud (73 %) est retenu par BENCH_T2A_DECISION_11DOSSIERS. Si T2A_MODEL pas posé via env, on tourne sur le mauvais modèle. 9 points d'accuracy laissés sur la table. 2. Règle de combinaison incorrecte dans le prompt — code dit "au moins 2 sur 3 ⇒ REQUALIFICATION" alors que l'arbre PPTX d'Eaubonne dit "si oui aux 3 critères". Cause probable des faux positifs UHCD du bench (25003284, 25056615). Quick win = passer à 3/3. 3. Trous métier dans le prompt : aucune mention CCMU, GEMSA, durée, mode de sortie, type de forfait précis (SU2/PE2/Standard). C'est exactement où se loge le ROI 100k€/mois. 5 quick wins prompt rédigés prêts à coller dans §E.4 du rapport. 4. Trois dossiers à NE PAS montrer en démo (25056615, 25151530, 25003475, 25048485) — trop ambigus, hallucinations LLM, structure non tranchée. 5. Trois dossiers à mettre en avant (25003451 SU2 plaie 2h, 25010621 PE2 laryngite, 25003364 UHCD pneumo SLA) — décisions justes, justifications béton. Argumentaire pré-démo : 9 questions/réponses face à Carvella (instructions DGOS, SFMU, cumul SU2+PE2, hallucination LLM, ROI 100k€). Roadmap post-démo pour Amina : bench étendu 50-100 dossiers + 3 inférences/dossier, fine-tune t2a-gemma3-27b, distinction forfaits fine, module ATIH-aware, couverture pédia/géria/psy, sortie contre avis, transferts. Note : aucun changement de code dans ce commit. Rapport seul. Les quick wins identifiés (3/3, modèle par défaut, prompts enrichis) sont à appliquer demain matin avec validation Dom + Amina. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 22:21:13 +02:00
Dom	0a02a6ec9c	feat(qw4): bench rigoureux LLM safety_checks → gemma4:latest par défaut Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Bench 5 modèles × 5 scénarios × cold+warm sur RTX 5070 : - gemma4:latest : warm 2.9s, JSON 92%, détection 46% → gagnant - qwen2.5vl:7b : warm 6.6s, détection 23% (trop lent) - qwen2.5vl:3b : warm 2.0s, détection 8% (vérifie pour vérifier) - medgemma:4b : warm 0.5s, détection 0% (refuse de signaler) → mauvais défaut initial, corrigé - qwen3-vl:8b : 0% JSON valide (ignore format=json Ollama) → écarté Modifications safety_checks_provider.py : - RPA_SAFETY_CHECKS_LLM_MODEL défaut: medgemma:4b → gemma4:latest - RPA_SAFETY_CHECKS_LLM_TIMEOUT_S défaut: 5 → 7 (warm 2.9s + marge) Doc complète : docs/BENCH_SAFETY_CHECKS_2026-05-06.md Script : tools/bench_safety_checks_models.py (reproductible, ~10-15 min) Limite assumée : 46% de détection. À présenter en démo comme aide médecin, pas certification. Amélioration V2 = prompt plus dirigé sur champs à vérifier. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 09:23:09 +02:00
Dom	0bcfddbbc4	docs(qw): plan de smoke tests manuels pour validation 2026-05-06 Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Plan exécutable seul par Dom : 9 sections (préflight, QW1 mono/multi-écran, QW2 boucle, QW4 backward/déclaratif/medical_critical, bus events, kill-switches, rollback) avec checklist OK/KO et procédures d'urgence en pleine démo. Validation pour démo GHT (1ère sem mai 2026). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 00:01:21 +02:00
Dom	aa47172f0f	docs(qw): synthèse de livraison QW suite mai 2026 Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Doc condensée des 3 quick wins livrés (QW1 multi-écrans, QW2 LoopDetector, QW4 safety_checks hybrides) avec : - procédures kill-switch et rollback - table des env vars - smoke tests manuels à effectuer avant démo GHT - statut composant par composant Pointe vers spec et plan d'exécution complets. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:48:26 +02:00
Dom	5543e25f9d	docs(qw): plan d'implémentation QW suite mai 2026 (~30 tasks bite-sized TDD) Some checks failed tests / Lint (ruff + black) (push) Successful in 18s Details tests / Tests unitaires (sans GPU) (push) Failing after 17s Details tests / Tests sécurité (critique) (push) Has been skipped Details Plan d'exécution détaillé pour le sprint QW1+QW2+QW4 : - Section 0 (preflight) : backup branche+tag Gitea, baseline E2E, smoke démo - Section 1 (QW1 multi-écrans) : tests + monitor_router + input_handler + Agent V1 - Section 2 (QW2 LoopDetector) : tests + module + hooks api_stream/replay_engine - Section 3 (QW4 safety_checks) : tests + provider + endpoint + frontend VWB - Section 4 (docs) : QW_SUITE_MAI.md + maj MEMORY Chaque task = 4-7 steps de 2-5 min, code complet par step (modules nouveaux), diffs ciblés (modifs ciblées), commands exactes avec output attendu. Discipline TDD légère : test rouge → implem → test vert → re-run baseline → commit. Référence spec : docs/superpowers/specs/2026-05-05-qw-suite-mai-design.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:34:13 +02:00
Dom	2a07d8084b	docs(qw): spec design QW suite mai 2026 (multi-écrans + LoopDetector + safety_checks hybrides) Spec issu d'un brainstorming structuré (7 questions clarifiantes, décisions tranchées) inspiré par l'exploration comparative de 5 frameworks computer-use (Simular Agent-S, browser-use, OpenAI CUA sample, Coasty open-cu, Showlab OOTB). 3 quick wins ciblés : - QW1 multi-écrans : capture/grounding par monitor_index avec fallbacks - QW2 LoopDetector composite : screen_static (CLIP) + action_repeat + retry - QW4 safety_checks hybrides : déclaratif workflow + LLM contextuel (medgemma:4b, timeout 5s, fallback safe, kill-switch env) Contraintes inviolables : 100% vision, 100% local Ollama, backward compat. Plan livraison : QW1+QW2 avant démo GHT, QW4 enchaîné dès validation. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:23:10 +02:00
Dom	3d6868f029	docs: cartographie complète d'exécution + fix target_text ORA + worker InfiGUI fichiers docs/CARTOGRAPHY.md : - Carte complète des 2 chemins d'exécution (Legacy vs ORA) - 12 systèmes de grounding identifiés dont 3 morts - Trace du champ target_text de la capture au clic - Fonctions existantes non branchées (verify, recovery, ShadowLearningHook) - Budget VRAM, fichiers critiques, règles de modification Fix target_text ORA (observe_reason_act.py:217) : - Détecte les target_text absurdes ("click_anchor") - Appelle _describe_anchor_image() (VLM) pour décrire le crop - Même logique que le legacy execute.py:893 Worker InfiGUI via fichiers /tmp : - Communication par fichiers (pas subprocess pipes, pas HTTP) - Process indépendant lancé avant le backend - Résout le crash CUDA dans Flask/FastAPI/uvicorn Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-26 12:37:43 +02:00
Dom	447fbb2c6e	chore: sauvegarde complète avant factorisation executor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Point de sauvegarde incluant les fichiers non committés des sessions précédentes (systemd, docs, agents, GPU manager). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:03:44 +02:00

1 2

67 Commits