rpa_vision_v3

Author	SHA1	Message	Date
Dom	2e76b44ff3	feat(observability): log positif pré-check OCR pour traçabilité runtime Avant : succès silencieux (seul rejet loggé) Après : log INFO à chaque appel avec by_text, position, méthode, observed, is_valid, latence Permet de valider en runtime que le pré-check OCR tourne bien sur les résolutions resolved=True (cf commit `731b5bcae`). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 22:23:32 +02:00
Dom	731b5bcae2	fix(replay): réactivation pré-check OCR avec calibrage chirurgical - Flag RPA_ENABLE_TEXT_PRECHECK défaut true (vs false pendant prépa démo) - radius_px 200 → 280 (englobe textes longs type "Synthèse Urgences") - min_token_ratio 0.60 → 0.50 (tolère onglets fragmentés par OCR) - Commentaire historique restructuré avec procédure troubleshooting - Docstring synchronisée avec valeur effective Audit complet : docs/AUDIT_CONTROLES_DEBRANCHES_2026-05-08.md Réactive contrôle #3 sur 5 identifiés (les 4 autres restent désactivés pour aujourd'hui — décision chirurgicale 1 par 1). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 14:27:21 +02:00
Dom	56e869c467	fix(replay): bug TypeError log + flag pré-check OCR off par défaut (démo GHT) Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Diagnostic post-bench E2E (rapport docs/E2E_TEST_RUN_2026-05-08.md) : 1. BUG SILENCIEUX MAJEUR (api_stream.py:4549) — quand le pré-check OCR rejette, mon code de rejet hier soir met x_pct=None / y_pct=None. Le log structuré faisait result.get('x_pct', 0):.4f → None:.4f → TypeError → réponse "analysis_error" qui MASQUE le vrai motif "rejected_text_mismatch". Conséquence : pendant toute la session du 7 mai soir, les rejets pré-check ont été silencieusement transformés en erreurs analyse → cascade locale Léa V1 → clic au pif. Fix : `(result.get('x_pct') or 0):.4f` traite None \| None \| 0 uniformément. 2. FLAG ENV pré-check OFF par défaut — le pré-check _validate_text_at_position introduit hier soir a 2 défauts identifiés par le bench E2E sur 8 click_anchor : * radius_px=200 trop petit pour les tabs à 2 tokens (Examens cliniques, Synthèse Urgences) — OCR voit un crop tronqué "Maquette POC ler en cours Codage Statistiques" qui n'inclut pas "Examens" → fuzzy match 1/2 = 50% < seuil 0.60 → REJET. À radius 300/400 le mot est inclus → match passe. * min_token_ratio=0.60 trop strict pour cibles 2 tokens. Solution démo : flag env RPA_ENABLE_TEXT_PRECHECK (défaut "false"). Le pré-check est désactivé par défaut → retour au comportement stable d'avant-hier (hybrid_text_direct ≥ 0.80 utilisé direct, exemption drift préservée). Code et fonction _validate_text_at_position conservés en place pour reprise post-démo après calibrage radius adaptatif (≈ 0.17 × min(screen_w, screen_h)) et token_ratio descendu à 0.50. Pour ré-activer en dev/test : `RPA_ENABLE_TEXT_PRECHECK=true` dans .env.local ou env du service rpa-streaming. Inclus aussi : - docs/E2E_TEST_RUN_2026-05-08.md (rapport agent test E2E ~1700 mots) - tests/e2e/urgence_aiva_demo_expected.yaml (tolérances re-écrites) - tests/e2e/fixtures/urgence_aiva_demo/live/*.png (8 fixtures recapturées headless 1920x1080 pour itérer demain) - _ocr_inventory.json + _run_resolve_results.json (raw runs) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 10:09:23 +02:00
Dom	7847a0e829	feat(agent_v1): toast paused supervisée Tkinter + Plan B + threshold FIND-TEXT 0.75 Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Démo GHT 8 mai 2026 — Dom utilise UNIQUEMENT Léa V1 sur Windows pendant la démo (pas le frontend VWB Linux), donc les pause_message du serveur doivent être visuellement évidents sur l'écran Windows. Modifications client validées par Dom + redéployées via SCP (procédure 2026-04-28). 1. ui/paused_toast.py (NEW) — Toast Tkinter custom autonome : Toplevel topmost overrideredirect, fond bleu Léa (#2563EB), 380px, haut-droite, auto-close 15s, click-to-close. Re-pin -topmost à 100/500/2000 ms (Windows démet le flag quand le focus part). Rate limit 3s sur message identique. Aucune dépendance externe (tkinter stdlib uniquement). Thread-safe : root.after si Tk root existe, sinon Tk dédié dans un daemon thread. Remplace plyer qui s'avère silencieux sur Windows 11 (Focus Assist + manque app-id COM). 2. ui/chat_window.py — _add_paused_bubble force la visibilité : La fenêtre Léa démarrait avec root.withdraw() — la bulle paused était bien rendue mais invisible. Ajout deiconify+lift+focus_force avant render, plus appel à show_paused_toast en complément. 3. ui/notifications.py — niveau BLOCAGE déclenche aussi le toast : Quand notify_message reçoit un MessageUtilisateur.BLOCAGE (cible non trouvée, mode apprentissage, fenêtre incorrecte), appelle show_paused_toast en plus de plyer. Couvre la branche supervision client (executor.py:1012) qui ne passe pas par Plan B serveur. 4. core/executor.py — Plan B replay_paused (lignes 1812-1850) : Intercepte data["replay_paused"]=True dans la réponse /replay/next, appelle chat_window._add_paused_bubble si _chat_window_ref défini, sinon fallback notifier.notify. Idempotence via _last_pause_msg_shown pour ne pas spammer (1 toast par (replay_id, message) unique). Threshold FIND-TEXT _find_text_on_screen : 0.50 → 0.75 pour rejeter les faux positifs (placeholders italiques, tabs voisins) et tomber en mode apprentissage humain plutôt qu'un clic au pif. 5. main.py — Wiring ChatWindow → Executor pour Plan B. 6. tools/test_lea_toast.py + ui/_test_paused_toast.py (NEW) — Scripts de test isolé pour validation visuelle rapide sans relancer un replay complet (commande dans les docstrings). Validé visuellement sur DESKTOP-58D5CAC. Toasts apparaissent en haut- droite, fond bleu, auto-close 15s. Test isolé Dom : 3 toasts successifs visibles sans accroc. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 22:03:51 +02:00
Dom	40440f1ca0	fix(replay): cure régression `b584bbabc` — fallback recorded_coords aveugle Trois changements complémentaires dans la cascade de résolution serveur, finis ce soir 7 mai pour la démo GHT 8 mai. Restaure le comportement strict d'avril 2026 (workflow qui passait 20 fois d'affilée sans incident). 1. resolve_engine.py — _validate_resolution_quality (lignes 2255-2289) : Le commit `b584bbabc` du 1er mai 2026 ("fix(stream): démo UHCD") avait transformé le rejet strict (resolved=False, method="rejected_drift_*") en fallback aveugle (resolved=True, method="fallback_recorded_coords", coords du record). Symptôme observé : Léa cliquait sur "Dossier en cours" du menu au lieu de "Synthèse Urgences" du tab — le VLM Quick Find Ollama hallucinait à (0.526, 0.918), drift dépassé, fallback ratait. Restauré : resolved=False explicite, le client passe en pause supervisée comme prévu (philosophie échec = apprentissage). 2. resolve_engine.py — exemption high-confidence élargie : L'exemption drift>0.20 IGNORÉ ne couvrait que template_matching ≥ 0.95 (commit `35b27ae49` du 2 mai). Étendue à hybrid_text_direct ≥ 0.80 : un OCR direct qui trouve le texte cible exact à score 0.80+ est aussi sûr qu'un template à 0.95 — la position est sémantiquement vraie, le drift reflète juste un changement de layout (résolution écran, refonte UI, scroll), pas une erreur de résolution. 3. resolve_engine.py + api_stream.py — pré-check OCR sémantique : Nouvelle fonction _validate_text_at_position (singleton EasyOCR fr+en, crop 200px autour de la coord résolue, fuzzy match 60% des tokens ≥3 caractères de l'expected_text). Câblée dans api_stream.py juste après _validate_resolution_quality. Si le by_text attendu n'est PAS présent dans la zone autour de la coord résolue → resolved=False method="rejected_text_mismatch" → pause supervisée. Pattern Verification-Aware Planning (state of the art 2026 — voir recommandations agent archéologue + agent SOTA review) : le serveur ne renvoie une coord que s'il est sémantiquement sûr du résultat. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 22:03:18 +02:00
Dom	7233df2bb9	fix(replay): câblage execution_mode supervised + seuil large fallback heartbeat Deux corrections liées au scenario démo Urgence GHT (workflow lecture multi-onglets + t2a_decision + pause_for_human + saisies dans Codage) : 1. Mode supervised propagé jusqu'au pipeline replay --------------------------------------------------- Symptôme constaté ce 7 mai : Léa lit les onglets, t2a_decision tourne (variable `dec` présente avec decision="FORFAIT_URGENCE"), mais la pause_for_human est SKIPPÉE silencieusement et les saisies type_text s'enchaînent dans le mauvais écran. Cause : api_stream.py:2140 passait `params={}` codé en dur lors de la création du replay_state. Conséquence : le code en aval qui lit `replay_state.params.execution_mode` (api_stream.py:2964) avait toujours le défaut "autonomous" → branche QW4 : # Mode autonome sans safety_checks → skip (comportement legacy) logger.info("pause_for_human ignorée (mode autonome)") Modifications : - RawReplayRequest gagne un champ `params: Optional[Dict[str, Any]]` - start_raw_replay propage `request.params or {}` à _create_replay_state - dag_execute.execute_windows force par défaut `data['params']['execution_mode'] = 'supervised'` quand le frontend ne précise rien (cas démo VWB → Windows). Override possible. Conséquence : la pause_for_human du workflow Urgence déclenche bien la PauseDialog VWB ("Décision : {{dec.decision_court}}"). Le médecin valide ou annule avant que les saisies type_text ne s'exécutent dans Codage. Note pour la démo réelle (post-aujourd'hui) : le scénario crédible veut que Léa soit déclenchée depuis SON chat (port 5004), pas depuis VWB. C'est un autre commit à venir — pour l'instant VWB suffit pour le développement (cf. handoff session). 2. Seuil détection image tronquée élargi ---------------------------------------- Le seuil initial (height < 200 OR width < 400) ne capturait que les cas extrêmes 2560x60 / 600x72. Mais le client envoie aussi 622x856 (Edge en fenêtre réduite ?) qui passait sous le radar. Élargi à height < 800 OR width < 1200 — un écran moderne fait toujours ≥ 1920x1080, donc le seuil est sain. Sans ce fallback élargi, _resolve_target_sync recevait une image trop petite pour matcher l'anchor → cascade VLM hallucinante.	2026-05-07 10:34:29 +02:00
Dom	f62fda575f	fix(stream): /resolve_target — fallback heartbeat full si image client tronquée Bug client constaté ce 2026-05-07 sur PC Windows 192.168.1.11 (agent V1) : mss.monitors[1] retourne parfois une image tronquée type 2560x60, 2560x108, 600x72 — possiblement la barre des tâches Windows confondue avec un monitor, ou un état mss corrompu. Reproduit même PC en mono physique. Cause exacte non isolée côté client. Sans cette image, _resolve_target_sync ne peut rien résoudre : - Template matching échoue (anchor 104x31 vs image 600x72) - OCR direct ne trouve pas la cible (texte hors de l'image tronquée) - VLM Quick Find hallucine systématiquement la même position - Fallback recorded_coords clique au mauvais endroit Conséquence reproduite hier soir : "Léa clique partout au pif" (cf. session_20260506_handoff_v2.md). Filet de sécurité côté serveur : si l'image reçue est anormalement tronquée (height < 200 ou width < 400), le serveur la remplace par le dernier heartbeat full screen avant la cascade _resolve_target_sync. Sources de fallback dans l'ordre : 1. _last_heartbeat (mémoire, peuplé par /stream/image en runtime) 2. Scan disque data/training/live_sessions//bg_/shots/heartbeat_*.png (utile après restart serveur ou si l'agent V1 ne polle pas) Validé en isolation : image tronquée 600x60 → fallback heartbeat 2560x1600 → template matching score 0.999 → coords (0.0312, 0.3500) = exactement la position de l'IPP cible '25003284' en première ligne d'Easily Assure. Bug client à traiter post-démo. Le fallback heartbeat reste utile en roadmap autonome (résilience aux états mss transitoires). Note : également retiré un import os local redondant dans le finally (masquait la variable globale et provoquait UnboundLocalError dans le scope du bloc fallback).	2026-05-07 09:31:07 +02:00
Dom	22c0a2ba61	revert: désactiver self-healing Win+D auto (cercle vicieux) Revert effectif du commit `c969f93a2`. Le Win+D auto au retry 1 produit un cercle vicieux quand combiné avec le VLM-first qui hallucine systématiquement (positions répétitives type 0.529/0.874 avec confidence 0.93 sans justification) : click rate (cible mal localisée par VLM) → no_screen_change → Win+D auto → minimise Easily Assure → retry click → cible plus visible (Easily masquée par Win+D) → no_screen_change → Win+D encore → boucle infernale Reproduit ce 2026-05-06 sur le workflow Urgence : 10 Win+D dispatchés en moins de 2 minutes. Régression majeure ressentie par Dom : "clic partout au pif, aucune action contrôlée". L'idée du self-healing par gesture reste valide mais demande : 1. un déclenchement plus sélectif (genre overlay/popup détecté visuellement, pas no_screen_change générique) 2. ou un Alt+Tab plutôt que Win+D (fait passer la fenêtre arrière sans minimiser l'app cible) 3. ou une vraie analyse "y a-t-il une fenêtre qui obstrue ma cible" avant de décider du gesture À retravailler post-démo avec un vrai détecteur d'obstruction.	2026-05-06 20:31:31 +02:00
Dom	c969f93a23	fix(replay): self-healing Win+D auto au retry 1 (verification_failed) Audit project-quality-guardian (2026-05-06) Cas #2 : le mécanisme qui invoquait gesture_catalog.win_minimize_all (Win+D) en cas d'échec de grounding a été archivé le 24/04 dans _archive/dead_code_20260424/core/visual/rpa_integration_manager.py (_attempt_self_healing_resolution). Le catalogue agent_chat/gesture_catalog.py:84 reste intact mais orphelin — aucun caller actif. Conséquence : quand une fenêtre/popup obstrue la cible, Léa retente N fois la même action ratée puis pose une pause supervisée, alors qu'un Win+D ("Afficher le bureau") règle souvent le problème en 200 ms. L'audit proposait observe_reason_act.py mais ce module est utilisé uniquement par /execute/instruction (lui aussi sans client actif, Cas #10). Le bon point d'insertion dans le pipeline replay actif est _schedule_retry (replay_engine.py) — la fonction qui construit la liste d'actions à réinjecter en tête de queue avant chaque retry. Modification : Au next_retry == 1 ET reason in ("verification_failed", "no_screen_change"), insertion en tête de queue de : 1. Action key_combo {keys: ["super", "d"]} (format reconnu par agent_v1/core/executor.py:1151), tagué _recovery_gesture: "win_minimize_all" pour audit. 2. Wait 500 ms pour laisser l'OS terminer l'animation Win+D. 3. Le retry de l'action originale. Au retry 2 et au-delà, comportement inchangé (wait 2s + retry). Tests : 27/27 baseline sprint QW verts.	2026-05-06 19:27:16 +02:00
Dom	1cbec2806e	fix(resolve): rebrancher hybrid_text_direct dans _resolve_target_sync Audit project-quality-guardian (2026-05-06) : la fonction _resolve_by_ocr_text (resolve_engine.py:1447) existait déjà mais n'était appelée QUE depuis _resolve_with_precompiled_order (V4), endpoint sans client côté frontend (Cas #5 du même audit). La cascade legacy _resolve_target_sync sautait directement d'étape 0 (grounding-window) → étape 0' (template icônes) → étape 1 (VLM Quick Find) sans tenter l'OCR direct. Conséquence reproduite ce 2026-05-06 sur le workflow Urgence : chaque action visuelle avec by_text payait 2-23 s de VLM Quick Find (ui-tars-1.5-7b-q8_0 sur Ollama) au lieu de <500 ms d'OCR direct, total replay > 10 min vs quelques secondes attendues. Constat utilisateur : "habituellement on est plutôt à quelques secondes". Régression silencieuse. Modification : Étape 0.5 ajoutée entre l'étape 0' (template icônes) et l'étape 1 (VLM Quick Find). Si by_text_strict est non vide, appel à _resolve_by_ocr_text — fonction docTR existante, cache singleton _V4_OCR_PREDICTOR, score 1.0 si match exact, 0.9 si mot exact, 0.8 si contenu. Seuil de retour : 0.80 (cohérent avec _RESOLUTION_MIN_SCORES["hybrid_text_direct"]). Le method retourné est rebadgé "hybrid_text_direct" pour cohérence avec : - _RESOLUTION_MIN_SCORES (seuil 0.80, ligne 2092) - agent_v0/agent_v1/core/executor.py:1534 (client Windows) - logs Learning historiques ([hybrid_text_direct]) Tests : 39/39 sprint QW + grounding/resolver verts.	2026-05-06 19:24:53 +02:00
Dom	864530c851	fix(stream): _async_replay_lock helper + 17 endpoints async non-bloquants Suite directe des commits `35b27ae49` (lock async sur /replay/next) et `87dbe8c5f` (get_replay_status non-bloquant) qui n'avaient traité que 2 endpoints sur les 19 utilisant _replay_lock dans api_stream.py. Reproduit aujourd'hui en pré-démo : un replay urgences a réussi extract_text + t2a_decision (50s, OK), puis a hang sur l'action suivante. start_raw_replay (POST /replay) du nouveau replay a tenté `with _replay_lock:` synchrone à la ligne 2085 → MainThread asyncio gelé → tous les endpoints derrière. Stack via py-spy confirmée. Le pattern systémique : 17 sites `with _replay_lock:` synchrones dans des handlers `async def` (start_replay, start_raw_replay, replay_from_session, enqueue_single_action, launch_replay_from_plan, get_next_action [×3], report_action_result [×5], register_error_callback, list_replays, resume_replay, cancel_replay). Chacun gèle l'event loop FastAPI dès qu'un autre thread tient le lock. Modifications : 1. Helper _async_replay_lock(timeout=4.5) (api_stream.py:516). Acquire via run_in_executor (event loop libre pendant l'attente), timeout 4.5s puis HTTPException 503 plutôt que gel infini. Sémantique acquire+release identique au `with` synchrone. 2. Remplacement automatisé des 17 sites async : `with _replay_lock:` → `async with _async_replay_lock():` 2 sites sync intentionnellement préservés (cleanup loop ligne 689, chat_status_provider ligne 5048 — pas dans des handlers async). 3. Import contextlib ajouté en haut du fichier. Tests : 27/27 baseline sprint QW verts, /health 200 (3ms), /replays 200 (2ms — endpoint qui utilise le nouveau helper).	2026-05-06 18:06:42 +02:00
Dom	87dbe8c5ff	fix(stream): get_replay_status non-bloquant + bornage actions serveur Suite du commit `35b27ae49` (lock async sur /replay/next) qui n'avait traité que la moitié du problème. Le sprint QW4 (commit `f5c33477f`) a recâblé le polling frontend PauseDialog vers /replay/{replay_id} → get_replay_status, qui gardait un `with _replay_lock:` synchrone. Conséquence : dès qu'une action serveur (extract_text/extract_table/ t2a_decision) tient le lock, l'event loop FastAPI gèle entièrement (heartbeats Windows, polls replay/next, get_replay_status, tout). Reproduit aujourd'hui en pré-démo : un replay urgences a fait extract_text → la queue suivante a tenu le lock → polling VWB sur get_replay_status a bloqué le MainThread asyncio → 23 minutes de gel total (py-spy a confirmé MainThread sur api_stream.py:4117). Modifications : 1. get_replay_status : acquire timeboxé 0.5s via run_in_executor (même pattern que /replay/next ligne 2815). Si le lock est tenu, retour immédiat {status: "busy"} → le frontend retentera dans 1s. Aucun cas où ce poll bloque l'event loop. 2. Actions serveur lignes 2994/3000/3006 : enveloppées dans asyncio.wait_for(timeout=180). Borne dure pour qu'un hang d'EasyOCR / Ollama / I/O ne tienne plus jamais le lock indéfiniment. TimeoutError est rattrapée par l'except Exception existant → queue.pop(0) → on continue. Tests : 27/27 baseline sprint QW verts.	2026-05-06 17:19:05 +02:00
Dom	0a02a6ec9c	feat(qw4): bench rigoureux LLM safety_checks → gemma4:latest par défaut Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Bench 5 modèles × 5 scénarios × cold+warm sur RTX 5070 : - gemma4:latest : warm 2.9s, JSON 92%, détection 46% → gagnant - qwen2.5vl:7b : warm 6.6s, détection 23% (trop lent) - qwen2.5vl:3b : warm 2.0s, détection 8% (vérifie pour vérifier) - medgemma:4b : warm 0.5s, détection 0% (refuse de signaler) → mauvais défaut initial, corrigé - qwen3-vl:8b : 0% JSON valide (ignore format=json Ollama) → écarté Modifications safety_checks_provider.py : - RPA_SAFETY_CHECKS_LLM_MODEL défaut: medgemma:4b → gemma4:latest - RPA_SAFETY_CHECKS_LLM_TIMEOUT_S défaut: 5 → 7 (warm 2.9s + marge) Doc complète : docs/BENCH_SAFETY_CHECKS_2026-05-06.md Script : tools/bench_safety_checks_models.py (reproductible, ~10-15 min) Limite assumée : 46% de détection. À présenter en démo comme aide médecin, pas certification. Amélioration V2 = prompt plus dirigé sur champs à vérifier. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 09:23:09 +02:00
Dom	83be93e121	chore(qw): cleanup post-review (préfixes BUS, événements monitor, import io) Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details - safety_checks_provider : tous les logger.warning d'échec LLM préfixés [BUS] lea:safety_checks_llm_failed avec une raison spécifique (exception, http_status, timeout, network, json_decode). - monitor_router : émission [BUS] lea:monitor_invalid_index si l'index explicite passé dans l'action est hors limites de monitors_geometry, et [BUS] lea:monitor_unavailable si focus actif demandé mais introuvable. Ces deux events permettent au bus de tracer chaque fallback de la cascade de routage QW1. - safety_checks_provider : import io supprimé (inutilisé). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 00:08:22 +02:00
Dom	b1a3aa16f1	fix(qw1): enrichir heartbeat Windows avec monitor_index + monitors_geometry Avant ce fix, le _heartbeat_loop côté Agent V1 deploy Windows n'enrichissait pas son payload, donc QW1 multi-écran ne s'activait sur Windows que via les events window_capture (déclenchés par les clics), pas en continu. La source agent_v0/agent_v1/main.py portait déjà l'enrichissement (commit `2d71e2a24`) mais le snapshot deploy/windows_client/agent_v1/main.py n'avait pas été synchronisé. Désormais chaque heartbeat porte monitor_index + monitors_geometry, le serveur peut donc résoudre l'écran cible en permanence, même sans clic. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-06 00:02:11 +02:00
Dom	65da557310	feat(qw4): hook safety_checks_provider + extension /replay/resume avec acquittements Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de safety_checks, checks_acknowledged, pause_reason, pause_payload (audit trail). Branche supervisée pause_for_human : - appel build_pause_payload() avant bascule paused_need_help - log [BUS] lea:safety_checks_generated (count, sources) - fallback safe sur exception (pause sans checks plutôt que crash) - déclenchement si safety_level/safety_checks déclarés OU execution_mode != autonomous - sinon comportement legacy (skip silencieux) POST /replay/resume : - accepte body { acknowledged_check_ids: [...] } - vérifie tous les checks required acquittés, sinon 400 required_checks_missing - stocke checks_acknowledged comme audit trail - nettoie safety_checks/pause_payload après reprise Proxy VWB /api/v3/replay/resume → streaming /replay/{id}/resume (forward bearer token + acknowledged_check_ids). Backward 100% : workflows sans safety_checks → resume sans acquittement requis. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:45:22 +02:00
Dom	7c6945171e	feat(qw4): SafetyChecksProvider hybride déclaratif + LLM contextuel build_pause_payload(action, state, last_screenshot) → PausePayload - Toujours inclure les checks déclaratifs (workflow.parameters.safety_checks) - Si safety_level=medical_critical ET RPA_SAFETY_CHECKS_LLM_ENABLED=1 : appel LLM (medgemma:4b par défaut) en format=json strict, timeout 5s, max 3 checks ajoutés (configurables via env vars) - Tous les chemins d'erreur (timeout, HTTP, JSON parse, exception) loggent et retournent [] (fallback safe : déclaratifs seuls) Tests : 7 cas (déclaratif seul, hybride OK, timeout, LLM invalide, kill-switch, max_checks, déclaratif vide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:29:38 +02:00
Dom	ca0b436a61	feat(qw2): hook LoopDetector dans api_stream + extension replay_state Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 17s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de _screenshot_history (5 dernières images PIL) et _action_history (5 dernières signatures action). report_action_result : - met à jour les deux anneaux après chaque action - évalue le LoopDetector (singleton lazy avec _clip_embedder serveur) - si detected → bascule paused_need_help avec pause_reason="loop_detected" et bus event lea:loop_detected (signal + evidence) Tous les chemins d'erreur (embedder absent, OOM, exception) loggent et laissent le replay continuer — aucun blocage par la couche détection. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:25:04 +02:00
Dom	fc01afa59c	fix(qw1): bus event lea:monitor_routed + cablage offset côté executor Agent V1 Cleanup post-review QW1 : - Émission bus lea:monitor_routed dans /replay/next (idx, source, replay_id, action_id, offset, wh) via logger.info "[BUS] lea:monitor_routed ..." (le serveur streaming n'a pas de SocketIO local, agent_chat émet déjà lea:* sur 5004 ; ici on logge en INFO bien lisible, prêt pour un parser/pont futur) - Executor Agent V1 (deploy/windows_client) lit action.monitor_resolution.{offset_x, offset_y, idx} et applique l'offset aux coords absolues du clic/type/scroll/popup quand idx >= 0 - composite_fallback (idx=-1) : pas d'offset appliqué (backward compat mono-écran) - Log INFO "QW1 monitor cible idx=N source=X offset=(dx,dy) — appliqué aux coords" émis une fois par action quand un offset non nul s'applique Tests : baseline 95 passed (e2e + phase0_integration + stream_processor + monitor_router + grounding_offset) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:16:06 +02:00
Dom	2a51a844b9	feat(qw2): LoopDetector composite (screen_static + action_repeat + retry) Module isolé, 3 signaux indépendants : - screen_static : CLIP similarity > 0.99 sur N captures consécutives - action_repeat : N actions identiques (type+coords) - retry_threshold : retried_actions >= seuil Premier signal positif → LoopVerdict.detected=True (caller responsable de la bascule en paused_need_help). Configurable env vars : RPA_LOOP_DETECTOR_ENABLED (kill-switch), RPA_LOOP_SCREEN_STATIC_N/THRESHOLD, RPA_LOOP_ACTION_REPEAT_N, RPA_LOOP_RETRY_THRESHOLD. Tests : 8 cas (chaque signal isolé, kill-switch, embedder absent, exception). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:09:43 +02:00
Dom	2d71e2a249	feat(qw1): enrichissement Agent V1 (monitor_index + monitors_geometry) + hook serveur Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Côté client Agent V1 : - helpers _get_monitors_geometry() / _get_active_monitor_index() via screeninfo (fallback gracieux [] / None si screeninfo absent) - _enrich_with_monitor_info() ajouté aux payloads dict de capture_dual, capture_active_window, et heartbeat_event poussé par main.py - screeninfo>=0.8 ajouté aux requirements (source + deploy Windows) - Deploy capturer.py reçoit l'enrichissement de manière additive (pas de copie verbatim qui aurait introduit BLUR_SENSITIVE absent côté deploy) Côté serveur : - import resolve_target_monitor depuis monitor_router (créé en QW1.1) - /replay/next : enrichissement action.monitor_resolution avant envoi au client (idx, offset_x/y, w, h, source de la décision) - live_session_manager.add_event : propagation monitor_index + monitors_geometry depuis window_capture ET depuis le payload event brut (cas heartbeat enrichi sans window/window_title) Cascade de résolution (cf monitor_router.py) : 1. action.monitor_index (hérité de la session source) 2. session.last_focused_monitor (focus actif vu en dernier heartbeat) 3. composite_fallback (offset 0,0) — backward compat strict Backward 100% : si geometry vide, fallback composite identique au comportement actuel mss.monitors[0]. Tests : baseline 89/89 préservée, monitor_router 4/4 OK (total 93/93). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:05:44 +02:00
Dom	6582a69d31	feat(qw1): MonitorRouter — résolution de l'écran cible pour le replay Module isolé qui choisit l'écran cible avec stratégie en cascade : 1. action.monitor_index (session source) → cible explicite 2. session.last_focused_monitor → fallback focus actif 3. composite (offset 0,0) → backward compat (comportement actuel) Backward 100% : actions sans monitor_index → fallback composite identique au comportement mss.monitors[0] actuel. Tests : 4 cas (cible OK, fallback focus, fallback composite, index invalide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:50:22 +02:00
Dom	35b27ae492	fix(stream+vwb): chaîne replay robuste — auth, anchor type_text, lock async, drift, prompt LLM Six modifications structurelles côté serveur, non destructives, aboutissant à un pipeline replay bien plus stable pour la démo GHT Sud 95 (Urgences UHCD). 1. visual_workflow_builder/backend/app.py load_dotenv() chargeait .env (cwd) au lieu de .env.local racine projet. Conséquence : RPA_API_TOKEN absent après chaque restart manuel du backend et tous les proxies VWB→streaming échouaient en 401 « Token API invalide ». Charge maintenant explicitement .env.local du project root. 2. visual_workflow_builder/backend/api_v3/learned_workflows.py Quatre appels proxy /api/v1/traces/stream/* ne portaient pas le Bearer. Helper _stream_headers() factorisé et appliqué (workflows list/detail, workflow detail, reload-workflows). 3. visual_workflow_builder/backend/api_v3/dag_execute.py _ANCHOR_CLICK_TYPES excluait type_text/type_secret : pas de pre-click de focus avant la frappe → texte tapé sans focus → textareas vides au replay. Helper _inject_anchor_targeting() factorisé (centre bbox + visual_mode + target_spec) appliqué aux click_anchor* ET aux type_text/type_secret dès qu'un anchor_id est présent. Workflows historiques sans anchor sur type_text → comportement inchangé. 4. agent_v0/server_v1/api_stream.py — endpoint /replay/next _replay_lock (threading.Lock global) tenu pendant les actions serveur lentes (extract_text OCR ~5s, t2a_decision LLM ~8-13s). Comme le handler est async def, l'event loop FastAPI était bloqué : les polls clients timeout à 5s, leurs actions étaient popped serveur sans destinataire, perdues silencieusement. Mesure : 8 actions/25 perdues sur replay Urgence. acquire(timeout=4.5) puis run_in_executor pour libérer l'event loop pendant l'attente du lock ET pendant les handlers serveur synchrones. Pendant un t2a_decision en cours, les polls concurrents reçoivent immédiatement {action: null, server_busy: true} → l'agent ne timeout plus, aucune action n'est popped sans destinataire. 5. agent_v0/server_v1/resolve_engine.py — _validate_resolution_quality Drift > 0.20 par rapport aux coords enregistrées → fallback aux coords enregistrées même quand le template matching trouve l'image avec un score quasi parfait. Or un score >= 0.95 signifie que l'image EST visuellement à l'écran à l'endroit indiqué, le drift reflète juste un changement de layout (scroll, F11, redimensionnement), pas une erreur. Exception ajoutée : score >= 0.95 sur template_matching → ignore drift check, utilise position visuelle. 6. core/llm/t2a_decision.py — prompt T2A/PMSI Ancien prompt autorisait « Critère non validé » en fallback creux. Nouveau prompt impose au moins une CITATION LITTÉRALE entre « ... » du DPI dans chaque preuve_critereN, qu'elle soutienne ou infirme le critère. Si non validé : factualisation explicite (« Aucune ... », « Sortie à H+2 ») citée du dossier. Sortie = preuves cliniques traçables et professionnelles, pas du remplissage. État DB : aucun changement net (bbox patchés puis revertés depuis backup visual_anchors_backup_20260501 ; by_text re-aligné sur 25003284). Le re-enregistrement du workflow Urgence en conditions bureau standard (Chrome normal, taille fenêtre standard) est l'étape suivante côté Dom. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-02 00:32:57 +02:00
Dom	b584bbabc3	fix(stream): robustesse proxy VWB→streaming + ciblage textuel pour démo UHCD dag_execute.py /execute-windows : - Bearer token sur appels VWB→streaming (machines, replay/raw). Sans cela : 401 Unauthorized et le workflow ne démarre pas. - Auto-injection session_id='agent_demo_user' si absent. Sans cela : /replay/raw bascule sur l'auto-détection sess_* et lève "Aucune session Agent V1 active" après tout restart du streaming server. - Propagation by_text dans target_spec pour ciblage textuel (résolution hybrid_text_direct côté executor) — utile quand deux numéros se ressemblent visuellement (ex 25003284 vs 2500341). t2a_decision.py : prompt enrichi avec decision_court (UHCD / Forfait Urgences) + 3 critères PMSI (preuve_critereN + critereN_valide booléen) pour piloter case-à-cocher dans l'arbre décisionnel. num_predict=1500, num_ctx=16384. resolve_engine.py : un drift trop grand bascule sur les coords enregistrées (fallback_recorded_coords, resolved=True) au lieu de rejeter la résolution. Permet au replay de continuer en cas de scroll plutôt que de s'arrêter net. workflows.db : by_text='25003284' sur le step de sélection patient du workflow Urgence (démo GHT Sud 95). Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-01 15:52:22 +02:00
Dom	964856ab30	feat(workflow): variables runtime + extract_text serveur + t2a_decision LLM Pipeline streaming étendu pour supporter des actions exécutées entièrement côté serveur (jamais transmises à l'Agent V1) qui produisent des variables réutilisables dans les steps suivants via templating {{var}} ou {{var.field}}. == Variables d'exécution == - replay_state["variables"] : Dict[str, Any] initialisé vide à la création - _resolve_runtime_vars() : résout {{var}} et {{var.field}} récursivement dans str/dict/list. Variables absentes laissées intactes. - /replay/next applique la résolution sur l'action AVANT toute interception ou envoi à l'Agent V1. == Boucle d'exécution serveur == - _SERVER_SIDE_ACTION_TYPES = {"extract_text", "t2a_decision"} - /replay/next pop+execute en boucle ces actions jusqu'à trouver une action visuelle (à transmettre Agent V1) ou un pause_for_human (qui bloque). - Latence acceptable : t2a_decision = 5-10s côté serveur, l'Agent V1 attend la réponse HTTP. == Action extract_text == - Handler côté serveur réutilisant le dernier heartbeat (max 5s d'âge) - core/llm/ocr_extractor.py : EasyOCR fr+en singleton + extract_text_from_image - Stockage dans replay_state["variables"][output_var] - Robuste : pas de heartbeat → variable = "" + log warning, pipeline continue == Action t2a_decision == - core/llm/t2a_decision.py : refactor de demo_app.py query_model en module importable. Prompt expert DIM T2A/PMSI, qwen2.5:7b par défaut (100% bench). - Handler côté serveur appelle analyze_dpi(input_template_resolved) - Stockage du JSON décision dans replay_state["variables"][output_var] - Erreurs (Ollama down, parse) → variable = INDETERMINE + _error, pipeline continue == VWB UI == - types.ts : nouveau type 't2a_decision' (icône 🧠 catégorie logic) - extract_text refondu : needsAnchor=false, paramètre output_var (au lieu de variable_name legacy — bridge accepte les deux pour compat) - Bridge VWB→core : passthrough des deux types + paramètres préservés == Tests == - tests/integration/test_t2a_extract.py : 25 tests verts - templating runtime (8 tests) - handler extract_text (3 tests, OCR mocké) - handler t2a_decision (3 tests, analyze_dpi mocké) - edge → action normalisée (2 tests) - bridge VWB → core (5 tests) - workflow chain extract→t2a→pause→clic (1 test) Total branche : 82/82 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 22:47:31 +02:00
Dom	0e6e61f2b1	feat(workflow): action 'pause_for_human' — pause supervisée scriptée dans VWB Nouvelle action native VWB qui force le replay à basculer en paused_need_help avec un message custom. Quand Léa atteint cette étape, elle ne tente pas d'exécuter — elle pose immédiatement le state, ce qui déclenche la bulle interactive ChatWindow (J3.5) avec boutons Continuer / Annuler. Asset démo majeur GHT Sud 95 : permet de scénariser le moment "Léa doute" au bon endroit dans le workflow, sans dépendre d'un échec aléatoire. Chaîne complète : - VWB UI (types.ts) : nouvelle entrée ACTIONS catégorie 'logic', icône ⏸, paramètre 'message' éditable (textarea). - Bridge VWB → core (learned_workflow_bridge.py) : passthrough du type + préservation du message dans parameters. - Pipeline replay (replay_engine.py) : type ajouté à _ALLOWED_ACTION_TYPES, conversion edge → action normalisée préserve le message. - Streaming server (api_stream.py /replay/next) : interception avant envoi à l'Agent V1 → bascule state en paused_need_help avec pause_message, retourne {action: None, replay_paused: True}. - L'action n'est jamais transmise à l'Agent V1 — pure logique serveur. 10 nouveaux tests pytest. Total branche : 57/57 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 16:37:46 +02:00
Dom	41c1250c99	feat(lea): bulles 'Léa exécute' stylisées + templates par event J3.4 — distinction visuelle entre : - Bulles chat normales (fond bleu clair, prefixe 💬, taille standard) - Bulles d'action Léa (fond gris clair, encadré subtil, icône sémantique en couleur, libellé court, métadonnées discrètes en pied) - Bulle paused supervisée (jaune, boutons interactifs — déjà en J3.5) Templates de libellés volontairement neutres : le contexte métier (UHCD, peakflow, J12.1, IPP 25003284…) provient des payloads émis par le pipeline côté serveur, pas de hardcoding dans le client. Mappage events → bulles : lea:action_started ▶ bleu "Démarrage : {workflow}" lea:action_progress ⋯ bleu "{step}" ou "Étape {current}/{total}" lea:done ✓ vert / ✗ rouge selon success lea:need_confirm ? bleu "{action.description}" lea:step_result ✓ / ✗ / · selon status lea:resumed → vert "Reprise" lea:resume_acked (silencieux côté UI) lea:abort_acked (silencieux côté UI) événement inconnu · gris fallback neutre 18 nouveaux tests pytest (templates + extract_meta). Total branche : 47/47 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:18:52 +02:00
Dom	2af3bc3b93	feat(lea): bulle paused_need_help interactive — asset démo majeur Quand Léa bascule en pause supervisée (event 'lea:paused'), affichage d'une bulle dédiée dans ChatWindow avec encadré orangé, raison de la pause, et deux boutons Continuer/Annuler. C'est le moment qui incarne la différence RPA classique vs Léa devant Carvella : Léa SAIT qu'elle ne sait pas et demande de l'aide. Architecture (canal SocketIO bidirectionnel, pas de nouvel endpoint streaming) : ChatWindow ──[lea:replay_resume]──> agent_chat ──POST /resume──> streaming ChatWindow ──[lea:replay_abort ]──> agent_chat (running=False local) Composants ajoutés : - agent_chat/app.py : handlers 'lea:replay_resume' / 'lea:replay_abort' + acks 'lea:resume_acked' / 'lea:abort_acked' pour feedback côté client - network/feedback_bus.py : méthodes resume_replay() / abort_replay() avec helper _safe_emit (silencieux + retourne bool succès) - ui/chat_window.py : palette PAUSED_*, _add_paused_bubble(), _render_paused_bubble(), _close_active_paused_bubble() (auto-fermeture sur lea:resumed/done), _on_paused_resume/abort 8 nouveaux tests pytest (4 handlers serveur + 4 méthodes client). Total branche : 29/29 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:08:32 +02:00
Dom	6154423a91	feat(agent_v1): brancher FeedbackBusClient dans ChatWindow tkinter - Import fail-safe : si python-socketio manquant (ancienne install Pauline), _HAS_FEEDBACK_BUS=False, ChatWindow tourne normalement sans bus - Bus démarré à la fin de _run_tk_loop si LEA_FEEDBACK_BUS=1 dans l'env - Callback _on_lea_event → _add_lea_message (thread-safe via root.after) - Cleanup : _bus.stop() ajouté dans _do_destroy avant la destruction tkinter Formatage des bulles minimal pour J3.3 (texte brut "[event] key=value"). Le style mixte métier+tech viendra en J3.4. La bulle paused interactive J3.5. Aucun crash si bus indisponible. Aucun changement de comportement si flag off. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 09:19:41 +02:00
Dom	41eba898c0	feat(agent_v1): FeedbackBusClient — client SocketIO pour bus 'lea:' Consomme les events 'lea:' émis par agent_chat (port 5004) et les dispatche vers un callback fourni par ChatWindow (J3.3 à venir). Caractéristiques : - Connexion en thread daemon (non-bloquant pour la mainloop tkinter) - Reconnect auto illimité (delay 2s → 30s exponentiel) - Auth Bearer Token via header HTTP au handshake - Fail-safe : connect échoué, callback qui raise, disconnect qui raise → tout silencieusement loggé, ChatWindow continue normalement 13 tests pytest verts (tests/integration/test_feedback_bus_client.py). Pas de connexion réseau réelle dans les tests (python-socketio mocké). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 08:43:26 +02:00
Dom	9452e86fd1	deps(agent_v1): python-socketio[client] pour bus feedback Léa Compatible Flask-SocketIO 5.3.x côté serveur. Ajouté aux deux requirements client (agent_v1/ et deploy/windows_client/) — le second est utilisé par l'installeur Pauline (setup_v1.bat). ATTENTION : redéploiement client requis (PC Windows + VM Linux) avant la démo GHT Sud 95. La dep ne sert à rien tant que J3.2 (FeedbackBusClient) n'est pas en place ; aucun impact runtime sur l'agent V1 actuel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 21:53:40 +02:00
Dom	cbe8dc95d2	feat(cognition): timing + écran attendu + auto-apprentissage Shadow + VLM qwen2.5vl Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Mémoire de travail enrichie : - Timing par étape (durée, moyenne, alerte si lent) - Écran attendu vs observation réelle - Contexte VLM étendu VLM reasoning : default qwen2.5vl:3b (gemma4 ne supporte pas vision) Auto-apprentissage Shadow : - stream_processor apprend les dialogues automatiquement - Clic utilisateur après dialogue → pattern mémorisé - Sauvegardé dans data/learned_patterns.json GUI-R1 : 10 patterns additionnels extraits du dataset Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:52:45 +02:00
Dom	447fbb2c6e	chore: sauvegarde complète avant factorisation executor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Point de sauvegarde incluant les fichiers non committés des sessions précédentes (systemd, docs, agents, GPU manager). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:03:44 +02:00
Dom	23a06a744c	feat(knowledge): câblage UIPatternLibrary dans executor + stream processor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details VWB Executor : - _check_screen_for_patterns() : capture écran + OCR + pattern matching - _handle_detected_pattern() : clic automatique sur dialogues connus - Vérifie entre chaque étape en mode intelligent/debug - Si un dialogue bloque (OK, Save, Cancel), Léa le gère seule Stream Processor : - Enrichit les ScreenState avec ui_pattern/ui_pattern_action/ui_pattern_target - Les patterns détectés sont loggés et stockés dans les résultats - Permet au GraphBuilder de savoir quels écrans sont des dialogues Phase 2 du plan "connaissance native de l'environnement". Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-19 10:54:19 +02:00
Dom	4f61741420	feat: journée 17 avril — tests E2E validés, dashboard fleet+audit, VWB bridge, cleaner C2 Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Pipeline E2E complet validé : Capture VM → streaming → serveur → cleaner → replay → audit trail Mode apprentissage supervisé fonctionne (Léa échoue → humain → reprise) Dashboard : - Cleanup 14→10 onglets (RCE supprimée) - Fleet : enregistrer/révoquer agents, tokens, ZIP pré-configuré téléchargeable - Audit trail MVP (/audit) : filtres, tableau, export CSV, conformité AI Act/RGPD - Formulaire Fleet simplifié (nom + email, machine_id auto) VWB bridge Léa→VWB : - Compound décomposés en N steps (saisie + raccourci visibles) - Layout serpentin 3 colonnes (plus colonne verticale) - Badge OS 🪟/🐧, filtre OS retiré (admin Linux voit Windows) - Fix import SQLite readonly Cleaner intelligent : - Descriptions lisibles (UIA/C2) + détection doublons - Logique C2 : UIElement identifié = jamais parasite - Patterns parasites resserrés - Message Léa : "Je n'y arrive pas, montrez-moi comment faire" Config agent (INC-1 à INC-7) : - SERVER_URL + SERVER_BASE unifiés - RPA_OLLAMA_HOST séparé - allow_redirects=False sur POST - Middleware réécriture URL serveur CI Gitea : fix token + Flask-SocketIO + ruff propre Fleet endpoints : /agents/enroll\|uninstall\|fleet + agent_registry SQLite Backup : script quotidien workflows.db + audit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-17 17:46:40 +02:00
Dom	53d29d9b24	fix(lint): ruff passe propre — 2 vrais bugs + suppression fichier corrompu Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Vrais bugs corrigés : - core/execution/target_resolver.py : suppression de 5 lignes de dead code après un return (vestige de refacto incomplète référençant des params jamais assignés à self : similarity_threshold, use_spatial_fallback) - agent_v0/agent_v1/core/executor.py:2180 : variable `prefill` référencée mais jamais définie. Initialisation explicite ajoutée en amont (conditionnée sur _is_thinking_popup, cohérent avec l'append du message) Fichier supprimé : - core/security/input_validator_new.py : contenu corrompu (texte inversé, artefact de copier-coller), jamais importé nulle part, 550 erreurs ruff à lui seul Workflow CI : - Exclusions ajoutées pour dossiers legacy connus cassés : - agent_v0/deploy/windows_client/ (clone obsolète) - tests/property/ (cf. MEMORY.md — imports cassés) - tests/integration/test_visual_rpa_checkpoint.py (VisualMetadata inexistant, déjà documenté) Résultat : "ruff All checks passed!" sur core/ agent_v0/ tests/ (avec E9,F63,F7,F82 — syntax + undefined critiques). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 19:01:11 +02:00
Dom	b808e48b1f	feat(fleet): endpoints /agents/enroll\|uninstall\|fleet + SQLite Endpoints REST pour le fleet management (utilisés par installeur Inno Setup) : POST /api/v1/agents/enroll -> 201 {status, machine_id, api_token, agent} POST /api/v1/agents/uninstall -> 200 {status, machine_id, agent} GET /api/v1/agents/fleet -> 200 {active, uninstalled, totals} Tous protégés par Bearer token (conforme _PUBLIC_PATHS existant). Nouveau module agent_v0/server_v1/agent_registry.py : - Classe AgentRegistry (sqlite3 stdlib, WAL, thread-safe via Lock) - CRUD + soft-delete (uninstall = status="uninstalled", historique préservé) - Table enrolled_agents créée via IF NOT EXISTS (pas de migration nécessaire) - Ré-enrollment après uninstall = réactivation auto (allow_reactivate=True) - Chemin DB configurable via RPA_AGENTS_DB_PATH (défaut data/databases/rpa_data.db) Fix fixture test_stream_processor : autouse RPA_API_TOKEN dans TestAPIEndpoints pour éviter SystemExit P0-C au module load. 13 tests intégration (enroll/uninstall/fleet + auth + edge cases). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:19 +02:00
Dom	42f571d496	docs(audit): README honnête + STATUS + DEV_SETUP + cleanup build - README.md : bandeau POC, date 14 avril 2026, retrait claims "production-ready 77%" (alignement code/doc post-audit) - docs/STATUS.md : état réel par module (opérationnel/alpha/en cours) - docs/DEV_SETUP.md : gestion worktrees Claude - QUICK_START.md : gemma4:latest au lieu de qwen3-vl:8b - deploy/build_package.sh : +9 fichiers dans REQUIRED_FILES (system_dialog_guard.py, persistent_buffer.py, grounding.py, etc.) - agent_v0/deploy_windows.py : marqué OBSOLÈTE (legacy) - .gitignore : ajout data/, .hypothesis, .deps_installed, buffer/, instance/*.db, caches SQLite Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:29 +02:00
Dom	93ef93e563	feat(security): API streaming fail-closed + /image privé + target_memory prefix fix P0-B — /api/v1/traces/stream/image retiré de _PUBLIC_PATHS : - Bearer token obligatoire pour upload d'image - Évite uploads anonymes de contenu arbitraire P0-C — Fail-closed si RPA_API_TOKEN absent : - sys.exit(1) au démarrage avec message fatal - Mode dev : RPA_AUTH_DISABLED=true pour désactiver explicitement - Log INFO des 8 premiers chars du token (diagnostic) Fix target_memory prefix empilé : - Strip "memory_" répétés avant stockage dans replay_memory.py - Évite "memory_memory_memory_template_matching" en base live_session_manager : améliorations mineures de la gestion sessions. 10 tests auth API stream. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:02 +02:00
Dom	a9a99953dd	fix(agent): Lea.bat kill par PID + LeaServerClient URL - Lea.bat ne tue plus TOUS les pythonw.exe du poste (Jupyter, Spyder) Kill ciblé uniquement sur le PID lu dans lea_agent.lock - LeaServerClient utilise RPA_SERVER_URL (HTTPS prod) au lieu de hardcode http://:5005 - Normalisation du slash final de l'URL Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:09 +02:00
Dom	aee64f54b1	feat(security): détection dialogues système Windows + fail-closed Nouveau module system_dialog_guard.py : - Détection UAC, CredUI, SmartScreen, Defender, Driver install - Multi-signal (ClassName UIA, process, title FR/EN, parent_path) - Faux positifs validés (OSIRIS, OBSIUS, MEDSPHERE, Chrome, Excel) Intégration dans executor.py et policy.py : - 6 points de décision (avant click/type/key_combo, VLM, policy) - Pause supervisée au lieu de clic aveugle - Fail-closed en cas d'exception (P0-D audit) - Notification systray + remontée serveur Fix mock test policy engine pour compat _system_dialog_pause=None. 39 + 5 tests unitaires. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:00 +02:00
Dom	c77844fa9a	feat(capture_server): auth Bearer + bind localhost + anti-path-traversal - Token obligatoire (RPA_API_TOKEN) sur /capture et /file-action - Bind 127.0.0.1 par défaut, 0.0.0.0 exige token (fail-closed) - /health reste public pour monitoring - VWB backend injecte le Bearer pour les proxys distants - hmac.compare_digest pour comparaison temps constant Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:45 +02:00
Dom	013fe071a2	feat(streamer): purge après ACK + buffering SQLite persistant - Nouveau module persistent_buffer.py (SQLite WAL, thread-safe) - Purge automatique des captures locales après ACK 200 serveur - Drain loop 15s, retry exponentiel, plafonds tentatives - Enum ImageSendResult.{OK, FAILED, FILE_GONE} pour distinguer les cas - FileNotFoundError n'est plus un faux succès (P0-E audit) - 14 tests intégration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:35 +02:00
Dom	203dc00d53	fix: UIA compare les noms d'app au lieu des titres complets "Fichier" dans "*,Ceci est un test – Bloc-notes" était rejeté parce que le titre attendu était "test.txt – Bloc-notes". Maintenant la comparaison extrait le nom d'app (Bloc-notes) et accepte le match si c'est la même application. Résout : "Ajouter un nouvel onglet" bloqué quand un fichier différent est ouvert dans Bloc-notes. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 10:27:08 +02:00
Dom	e9a028134a	feat: blocs conditionnels — skip automatique des dialogues absents Le session_cleaner détecte les dialogues système (Enregistrer sous, Ouvrir, Confirmer, etc.) et marque les actions correspondantes comme conditionnelles. Au replay, si le dialogue n'apparaît pas (ex: Ctrl+S sauve silencieusement car le fichier existe), les actions du dialogue sont skippées automatiquement. Détection basée sur des patterns de noms de dialogues Windows FR/EN. Testé : seul le clic dans "Enregistrer sous" est conditionnel, les actions Bloc-notes/Rechercher/systray restent normales. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 10:20:00 +02:00
Dom	01bba7bc6c	feat: wrong_window déclenche le mode apprentissage au lieu de bloquer Quand la fenêtre attendue ne correspond pas (ex: Ctrl+S a sauvé sans dialogue "Enregistrer sous"), Léa passe en mode capture au lieu de retourner paused_need_help. Si l'humain ne fait rien pendant 10s, l'action est skippée (l'état est considéré déjà atteint). 4 déclencheurs apprentissage maintenant couverts : - retry_failed : grounding + retry échouent - no_screen_change : clic sans effet visible - wrong_window : fenêtre attendue absente - SUPERVISE direct : Policy décide de demander Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 09:27:01 +02:00
Dom	d5285de99c	feat: mode apprentissage — retry échoué + écran inchangé déclenchent la capture humaine Trois chemins vers le mode apprentissage supervisé : 1. Grounding échoue → Policy RETRY → retry échoue → capture humaine 2. Clic visuel sans effet (écran inchangé 3s) → capture humaine 3. Policy SUPERVISE direct → capture humaine La capture enregistre un mini-workflow complet (clics + frappes + combos) jusqu'à Ctrl+Shift+L ou 10s d'inactivité. Correction envoyée au serveur. Testé E2E : workflow Chrome avec résultats Google dynamiques + bandeau cookies — Léa demande l'aide, capture, reprend. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 08:33:57 +02:00
Dom	33c198b827	feat: premier replay E2E + mode apprentissage supervisé Premier replay fonctionnel de bout en bout (Bloc-notes, Chrome). Corrections critiques : - Fix double-lancement agent (Lea.bat start /b + verrou PID) - Sérialisation replay (threading.Lock dans poll_and_execute) - Garde UIA bbox >50% écran (rejet conteneurs "Bureau") - Filtre fenêtres bruit système (systray overflow) - Auto-nettoyage replays bloqués (paused_need_help) Cascade visuelle complète dans session_cleaner : - UIA local (10ms) → template matching (100ms) → serveur docTR/VLM - Nettoyage bureau pré-replay (clic "Afficher le bureau") - Crops 80x80 + vlm_description pour chaque clic Grounding contraint à la fenêtre active : - Capture croppée à la fenêtre au lieu de l'écran entier - Conversion coordonnées fenêtre → écran - Élimine les faux positifs taskbar/systray Mode apprentissage supervisé (SUPERVISE → capture humaine) : - Léa passe en mode capture quand elle est perdue - Capture mini-workflow humain (clics + frappes + combos) - Fin par Ctrl+Shift+L ou timeout inactivité 10s - Correction stockée dans target_memory.db via serveur Deploy Windows complet (grounding.py, policy.py, uia_helper.py). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 07:42:50 +02:00
Dom	02ee2d7b5b	fix: Fenêtre incorrecte strict → pause supervisée pour apprentissage Symétrie avec le fix `7cc03f6f1` (no_screen_change strict → paused_need_help). Avant : si l'agent détecte en pré-vérification que la fenêtre active n'est pas celle attendue, l'erreur retombait dans la branche retry+stop legacy → 3 retries inutiles puis status=error et queue vidée. C'est une violation de feedback_failure_is_learning.md : un échec Léa n'est jamais un "stop avec error", c'est un moment pédagogique. Maintenant : 1. L'agent envoie warning="wrong_window" dans le résultat (en plus de l'error textuel existant). Ajouté aux 2 chemins : - pré-vérif (expected_window_before mismatch, executor.py ~587) - post-vérif strict (expected_window_title timeout, executor.py ~820) 2. Le serveur détecte warning="wrong_window" AVANT la branche retry+stop legacy → redirection vers paused_need_help 3. pause_message explicite : "Je m'attendais à voir la bonne fenêtre mais je vois autre chose. Peux-tu vérifier que l'application est au premier plan ?" 4. Queue intacte (l'action reste en tête, prête à être relancée) 5. log_replay_failure pour l'apprentissage futur Cause fréquente identifiée : les popups de Léa elle-même (notifications, fenêtre de chat) volent le focus Windows pendant le replay → l'app cible perd le premier plan → pré-vérif détecte le mismatch. Bug UX séparé à traiter (Léa ne devrait pas prendre le focus pendant un replay actif). Appliqué aux 2 copies de l'agent (dev + deploy). Tests : 56 E2E + Phase0 passent, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-12 10:41:29 +02:00
Dom	47993e2ee9	chore: ajouter replay_failure_logger.py au tracking git Ce fichier existe sur disque depuis le 4 avril mais n'a jamais été ajouté à git. Il est importé par api_stream.py (ligne 29) — un fresh clone sans ce fichier ne peut pas démarrer le serveur streaming. Découvert par le project-quality-guardian lors de l'audit global du 11 avril (item C1, priorité P0 bloquant absolu). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-12 10:35:51 +02:00

1 2 3

118 Commits