rpa_vision_v3

Author	SHA1	Message	Date
Dom	7df51d2c79	snapshot: WIP 5j replay reliability (B1 watchdog + dialog handlers + grounding drift) Snapshot avant correction du blocage relance Léa (3 incidents 24h: SSH refusé, polls morts ×2). Point de rollback stable. Contenu: - agent_v1/core/executor.py: 5 patchs dialog handling (saveas drift, close_tab hotkey fallback, confirm_save Unicode apostrophe, foreground dialog recontextualization, runtime_dialog in-loop) + helpers normalize_window_hint, requires_post_verify_window_transition - agent_v1/core/grounding.py: garde drift template fix (fallback_x/y plumbed) - server_v1/replay_watchdog.py (NEW): orphan watchdog B1, scan 10s timeout 30s - server_v1/api_stream.py: dispatched_action plumbing, watchdog lifespan, metrics endpoint - server_v1/replay_engine.py: _schedule_retry préserve original_action + dispatched_action - stream_processor.py: gardes _infer_tab_switch_target (no false switch_tab on save_as dialog open) + _attach_expected_window_before - tests/integration: test_replay_watchdog.py (8 cas), test_stream_processor.py - tests/unit: test_executor_verify_window_guard.py (start_button, close_tab, runtime_dialog, post_verify, transition fallbacks) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 16:48:37 +02:00
Dom	5ea4960e65	backup: snapshot post-démo GHT 2026-05-19 Some checks failed tests / Lint (ruff + black) (push) Successful in 1m50s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m50s Details tests / Tests sécurité (critique) (push) Has been skipped Details Backup état complet après enregistrement vidéo démo de bout en bout. À utiliser comme point de référence pour la consolidation post-démo. Changements majeurs de la session 18-19 mai : - AIVA-URGENCE : page autonome avec preset URL + auto-focus chain - Workflow Demo_urgence_3_db : merge linux_db + steps AIVA + pause humaine NoMachine - Bypass LLM (static_result / static_text) dans replay_engine pour démos déterministes sans appel Ollama - Fix api_stream:3013 — replay_paused au premier polling /next - dag_execute : lift duration_ms vers top-level pour wait runtime - NPM bypass auth /aiva-urgence/ via location ^~ (proxy_host/10.conf hors git) - scripts/cancel-replays.sh — workaround Stop VWB qui ne purge pas la queue Anchors visuels (468) forcés dans le commit pour garantir restorabilité. DB workflows actuelle + ~12 .bak DB de la journée incluses. Sujets identifiés pour consolidation post-démo (TODO) : 1. Bug VWB recapture anchor ne régénère pas le PNG 2. Léa client accumule état mémoire (restart périodique requis) 3. Stop VWB ne purge pas la queue serveur (lien manquant vers /replay/cancel) 4. Bug coord client mss tronqué 2560x60 → mapping Y cassé 5. delay_before/delay_after ignorés au runtime (fix partiel duration_ms) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 14:55:06 +02:00
Dom	9872f4510c	feat(t2a): build_dpi_enriched - extraction déterministe horaires + classifications cliniques Préprocesseur Python qui injecte un bloc FAITS_CALCULÉS en tête du DPI avant l'appel LLM, pour neutraliser l'hallucination de durée (bug "23h" sur cas MOREL, confusion avec "depuis 23h" de l'Observ. IDE Urg). Extrait depuis le bandeau Easily Assure et la Synthèse Urgences : - âge (dateutil.relativedelta) - date admission / sortie + durée passage (format humain + décimal) - CCMU / GEMSA libellé complet (parser multi-ligne) - priorité IAO, mode de venue / médicalisation / mode d'entrée - diagnostic principal - decision_terrain + orientation_terrain (metadata only, jamais injectés dans le prompt pour ne pas biaiser le LLM) Retour tuple (dpi_enriched, metadata) pour permettre les garde-fous serveur Python ↔ LLM au commit 2. Robustesse : - re.search 1re occurrence + WARNING si bandeau divergent multi-occurrences - Synthèse Urgences priorité sur bandeau pour dates - Valeur exigée sur même ligne que label (évite capture de section title) - Cas négatif (horaires absents) → "NON CALCULABLE" + parsing_warnings - Jamais de crash, retour tuple toujours valide Tests : 4/4 verts (golden MOREL string + metadata, négatif sortie absente, DPI vide). Pas de régression sur tests/integration/test_t2a_extract.py. Brief complet : docs/handoffs/2026-05-12_brief_S1_build_dpi_enriched.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-12 18:49:49 +02:00
Dom	bfbf0f9c3e	refactor(grounding): centralise parser bbox_2d Avant : 4 occurrences de parsing en cascade dans resolve_engine.py (L840-885, L903-915, L2569-2580, ~110 lignes au total). Après : centralisation dans core/grounding/bbox_parser.py avec paramètre formats= permettant de filtrer les formats reconnus selon le contrat sémantique de chaque site d'appel. Préservation des contrats sémantiques (strict no-op) : - Occ 1+2 (cascade principale) : tous formats (par défaut) - Occ 3 (retry multi-image) : formats={"xy_json", "raw_array"} pour respecter le prompt qui impose {"x": NNN, "y": NNN} in pixels - Occ 4 (_locate_popup_button) : formats={"bbox_2d"} pour respecter le prompt qui demande "bounding box" Notes : - Mini-bug Occ 3 retry multi-image (division systématique sans heuristique x>1, produisait coordonnées aberrantes ~0.0004 si VLM retournait déjà du pourcentage) corrigé incidemment via centralisation. Pas de régression possible (résultat précédent aberrant par construction). - Occ 4 : bbox_2d strict 4-coords élargi à bbox_2d 2 ou 4 coords. Contrat sémantique "bounding box" respecté ; un point 2-coords interprété comme centre de bbox. Tests : 26 cas dans test_bbox_parser.py (tous formats × cascade + filtre formats= + validated). 121 PASS / 0 FAIL sur le périmètre refactor (5 fichiers ciblés). Net : -96 lignes dans resolve_engine.py, +120 lignes module + 250 lignes tests. refs DETTE-006 (étape 2/5 du fix smart_resize) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 15:30:25 +02:00
Dom	0d7bcd18ac	feat(grounding): module smart_resize officiel Qwen3-VL Module pur core/grounding/smart_resize.py implémentant la formule smart_resize officielle (transformers.qwen2_vl.image_processing_qwen2_vl, utilisée par Qwen3VLProcessor pour les images via wrap Qwen2VLImageProcessor). Helpers exposés : _round_by_factor, _floor_by_factor, _ceil_by_factor. Constantes : FACTOR_DEFAULT=28, MIN_PIXELS_DEFAULT=3136, MAX_PIXELS_DEFAULT=1_003_520, MAX_RATIO_DEFAULT=200. Tests : tests/unit/test_smart_resize.py — 32 cas, 100% coverage sur le module (mesure via coverage API directe, pytest-cov bloqué par bug cv2 préexistant tracé dans DETTE-011). refs DETTE-006 (étape 1/5 du fix smart_resize) refs DETTE-007 (création de la 3ème implémentation, à unifier post-démo) refs DETTE-010 (vérif preprocessor_config.json checkpoint Qwen3-VL-8B bloquante avant Étape 2) refs DETTE-011 (bug cv2 contourné pour mesure coverage) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 12:42:47 +02:00
Dom	56e869c467	fix(replay): bug TypeError log + flag pré-check OCR off par défaut (démo GHT) Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Diagnostic post-bench E2E (rapport docs/E2E_TEST_RUN_2026-05-08.md) : 1. BUG SILENCIEUX MAJEUR (api_stream.py:4549) — quand le pré-check OCR rejette, mon code de rejet hier soir met x_pct=None / y_pct=None. Le log structuré faisait result.get('x_pct', 0):.4f → None:.4f → TypeError → réponse "analysis_error" qui MASQUE le vrai motif "rejected_text_mismatch". Conséquence : pendant toute la session du 7 mai soir, les rejets pré-check ont été silencieusement transformés en erreurs analyse → cascade locale Léa V1 → clic au pif. Fix : `(result.get('x_pct') or 0):.4f` traite None \| None \| 0 uniformément. 2. FLAG ENV pré-check OFF par défaut — le pré-check _validate_text_at_position introduit hier soir a 2 défauts identifiés par le bench E2E sur 8 click_anchor : * radius_px=200 trop petit pour les tabs à 2 tokens (Examens cliniques, Synthèse Urgences) — OCR voit un crop tronqué "Maquette POC ler en cours Codage Statistiques" qui n'inclut pas "Examens" → fuzzy match 1/2 = 50% < seuil 0.60 → REJET. À radius 300/400 le mot est inclus → match passe. * min_token_ratio=0.60 trop strict pour cibles 2 tokens. Solution démo : flag env RPA_ENABLE_TEXT_PRECHECK (défaut "false"). Le pré-check est désactivé par défaut → retour au comportement stable d'avant-hier (hybrid_text_direct ≥ 0.80 utilisé direct, exemption drift préservée). Code et fonction _validate_text_at_position conservés en place pour reprise post-démo après calibrage radius adaptatif (≈ 0.17 × min(screen_w, screen_h)) et token_ratio descendu à 0.50. Pour ré-activer en dev/test : `RPA_ENABLE_TEXT_PRECHECK=true` dans .env.local ou env du service rpa-streaming. Inclus aussi : - docs/E2E_TEST_RUN_2026-05-08.md (rapport agent test E2E ~1700 mots) - tests/e2e/urgence_aiva_demo_expected.yaml (tolérances re-écrites) - tests/e2e/fixtures/urgence_aiva_demo/live/*.png (8 fixtures recapturées headless 1920x1080 pour itérer demain) - _ocr_inventory.json + _run_resolve_results.json (raw runs) 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 10:09:23 +02:00
Dom	35fd6cf4c5	test(e2e): harness replay reproductible — mock client Léa V1 contre serveur réel Some checks failed tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Réduit le cycle debug d'un workflow de 1-2 min (replay manuel via Windows + Léa V1 + maquette) à ~2-5s (mock client Linux contre serveur de streaming localhost:5005). 30-60× plus rapide. Architecture : - tools/test_replay_e2e.py — harness CLI (~580 lignes), reproduit la chaîne réelle : VWB /api/v3/execute-windows → streaming /replay/raw → boucle /replay/next côté harness avec resolve_target sur un screenshot fixture → POST /replay/result. Pas de modification serveur. - tests/e2e/test_urgence_aiva_demo.py — wrapper pytest (smoke). - tests/e2e/urgence_aiva_demo_expected.yaml — référence générée par --export-expected, pour comparaison régression auto. - pytest.ini — ajout du marqueur e2e. Usage : python tools/test_replay_e2e.py --execution-mode autonomous --max-iter 120 --verbose python tools/test_replay_e2e.py --single-step 8 --shot <heartbeat>.png python tools/test_replay_e2e.py --expected tests/e2e/urgence_aiva_demo_expected.yaml pytest tests/e2e -v -m e2e Sortie : tableau Markdown step × méthode × score × pos × status × diag. Limitations connues (extensions post-démo) : - Une seule fixture screenshot pour tout le replay → click_anchor réalistes échouent dès qu'on dépasse l'écran fixture. Carte step_id → fixture à venir. - extract_text/table/t2a_decision exécutés côté serveur, observables mais pas modifiables. - Pas de simulation screenshot_after → ReplayVerifier (Critic VLM) ne tourne pas. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-07 22:11:07 +02:00
Dom	65da557310	feat(qw4): hook safety_checks_provider + extension /replay/resume avec acquittements Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de safety_checks, checks_acknowledged, pause_reason, pause_payload (audit trail). Branche supervisée pause_for_human : - appel build_pause_payload() avant bascule paused_need_help - log [BUS] lea:safety_checks_generated (count, sources) - fallback safe sur exception (pause sans checks plutôt que crash) - déclenchement si safety_level/safety_checks déclarés OU execution_mode != autonomous - sinon comportement legacy (skip silencieux) POST /replay/resume : - accepte body { acknowledged_check_ids: [...] } - vérifie tous les checks required acquittés, sinon 400 required_checks_missing - stocke checks_acknowledged comme audit trail - nettoie safety_checks/pause_payload après reprise Proxy VWB /api/v3/replay/resume → streaming /replay/{id}/resume (forward bearer token + acknowledged_check_ids). Backward 100% : workflows sans safety_checks → resume sans acquittement requis. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:45:22 +02:00
Dom	7c6945171e	feat(qw4): SafetyChecksProvider hybride déclaratif + LLM contextuel build_pause_payload(action, state, last_screenshot) → PausePayload - Toujours inclure les checks déclaratifs (workflow.parameters.safety_checks) - Si safety_level=medical_critical ET RPA_SAFETY_CHECKS_LLM_ENABLED=1 : appel LLM (medgemma:4b par défaut) en format=json strict, timeout 5s, max 3 checks ajoutés (configurables via env vars) - Tous les chemins d'erreur (timeout, HTTP, JSON parse, exception) loggent et retournent [] (fallback safe : déclaratifs seuls) Tests : 7 cas (déclaratif seul, hybride OK, timeout, LLM invalide, kill-switch, max_checks, déclaratif vide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:29:38 +02:00
Dom	ca0b436a61	feat(qw2): hook LoopDetector dans api_stream + extension replay_state Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 17s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de _screenshot_history (5 dernières images PIL) et _action_history (5 dernières signatures action). report_action_result : - met à jour les deux anneaux après chaque action - évalue le LoopDetector (singleton lazy avec _clip_embedder serveur) - si detected → bascule paused_need_help avec pause_reason="loop_detected" et bus event lea:loop_detected (signal + evidence) Tous les chemins d'erreur (embedder absent, OOM, exception) loggent et laissent le replay continuer — aucun blocage par la couche détection. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:25:04 +02:00
Dom	2a51a844b9	feat(qw2): LoopDetector composite (screen_static + action_repeat + retry) Module isolé, 3 signaux indépendants : - screen_static : CLIP similarity > 0.99 sur N captures consécutives - action_repeat : N actions identiques (type+coords) - retry_threshold : retried_actions >= seuil Premier signal positif → LoopVerdict.detected=True (caller responsable de la bascule en paused_need_help). Configurable env vars : RPA_LOOP_DETECTOR_ENABLED (kill-switch), RPA_LOOP_SCREEN_STATIC_N/THRESHOLD, RPA_LOOP_ACTION_REPEAT_N, RPA_LOOP_RETRY_THRESHOLD. Tests : 8 cas (chaque signal isolé, kill-switch, embedder absent, exception). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:09:43 +02:00
Dom	fae95c5366	feat(qw1): capture par monitor + propagation offsets dans grounding cascade _capture_screen() accepte un monitor_idx optionnel (None = composite legacy). Index logique 0..N-1 mappé sur mss.monitors[idx+1] (mss[0] = composite). Les 3 niveaux de grounding (OCR, UI-TARS, VLM) propagent l'offset retourné par la capture pour traduire les coordonnées locales monitor en coordonnées absolues écran (correct pour pyautogui.click). find_element_on_screen() accepte monitor_idx et le forwarde aux 3 niveaux. Backward 100% : monitor_idx=None partout → comportement strictement actuel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:55:04 +02:00
Dom	6582a69d31	feat(qw1): MonitorRouter — résolution de l'écran cible pour le replay Module isolé qui choisit l'écran cible avec stratégie en cascade : 1. action.monitor_index (session source) → cible explicite 2. session.last_focused_monitor → fallback focus actif 3. composite (offset 0,0) → backward compat (comportement actuel) Backward 100% : actions sans monitor_index → fallback composite identique au comportement mss.monitors[0] actuel. Tests : 4 cas (cible OK, fallback focus, fallback composite, index invalide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:50:22 +02:00
Dom	964856ab30	feat(workflow): variables runtime + extract_text serveur + t2a_decision LLM Pipeline streaming étendu pour supporter des actions exécutées entièrement côté serveur (jamais transmises à l'Agent V1) qui produisent des variables réutilisables dans les steps suivants via templating {{var}} ou {{var.field}}. == Variables d'exécution == - replay_state["variables"] : Dict[str, Any] initialisé vide à la création - _resolve_runtime_vars() : résout {{var}} et {{var.field}} récursivement dans str/dict/list. Variables absentes laissées intactes. - /replay/next applique la résolution sur l'action AVANT toute interception ou envoi à l'Agent V1. == Boucle d'exécution serveur == - _SERVER_SIDE_ACTION_TYPES = {"extract_text", "t2a_decision"} - /replay/next pop+execute en boucle ces actions jusqu'à trouver une action visuelle (à transmettre Agent V1) ou un pause_for_human (qui bloque). - Latence acceptable : t2a_decision = 5-10s côté serveur, l'Agent V1 attend la réponse HTTP. == Action extract_text == - Handler côté serveur réutilisant le dernier heartbeat (max 5s d'âge) - core/llm/ocr_extractor.py : EasyOCR fr+en singleton + extract_text_from_image - Stockage dans replay_state["variables"][output_var] - Robuste : pas de heartbeat → variable = "" + log warning, pipeline continue == Action t2a_decision == - core/llm/t2a_decision.py : refactor de demo_app.py query_model en module importable. Prompt expert DIM T2A/PMSI, qwen2.5:7b par défaut (100% bench). - Handler côté serveur appelle analyze_dpi(input_template_resolved) - Stockage du JSON décision dans replay_state["variables"][output_var] - Erreurs (Ollama down, parse) → variable = INDETERMINE + _error, pipeline continue == VWB UI == - types.ts : nouveau type 't2a_decision' (icône 🧠 catégorie logic) - extract_text refondu : needsAnchor=false, paramètre output_var (au lieu de variable_name legacy — bridge accepte les deux pour compat) - Bridge VWB→core : passthrough des deux types + paramètres préservés == Tests == - tests/integration/test_t2a_extract.py : 25 tests verts - templating runtime (8 tests) - handler extract_text (3 tests, OCR mocké) - handler t2a_decision (3 tests, analyze_dpi mocké) - edge → action normalisée (2 tests) - bridge VWB → core (5 tests) - workflow chain extract→t2a→pause→clic (1 test) Total branche : 82/82 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 22:47:31 +02:00
Dom	0e6e61f2b1	feat(workflow): action 'pause_for_human' — pause supervisée scriptée dans VWB Nouvelle action native VWB qui force le replay à basculer en paused_need_help avec un message custom. Quand Léa atteint cette étape, elle ne tente pas d'exécuter — elle pose immédiatement le state, ce qui déclenche la bulle interactive ChatWindow (J3.5) avec boutons Continuer / Annuler. Asset démo majeur GHT Sud 95 : permet de scénariser le moment "Léa doute" au bon endroit dans le workflow, sans dépendre d'un échec aléatoire. Chaîne complète : - VWB UI (types.ts) : nouvelle entrée ACTIONS catégorie 'logic', icône ⏸, paramètre 'message' éditable (textarea). - Bridge VWB → core (learned_workflow_bridge.py) : passthrough du type + préservation du message dans parameters. - Pipeline replay (replay_engine.py) : type ajouté à _ALLOWED_ACTION_TYPES, conversion edge → action normalisée préserve le message. - Streaming server (api_stream.py /replay/next) : interception avant envoi à l'Agent V1 → bascule state en paused_need_help avec pause_message, retourne {action: None, replay_paused: True}. - L'action n'est jamais transmise à l'Agent V1 — pure logique serveur. 10 nouveaux tests pytest. Total branche : 57/57 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 16:37:46 +02:00
Dom	41c1250c99	feat(lea): bulles 'Léa exécute' stylisées + templates par event J3.4 — distinction visuelle entre : - Bulles chat normales (fond bleu clair, prefixe 💬, taille standard) - Bulles d'action Léa (fond gris clair, encadré subtil, icône sémantique en couleur, libellé court, métadonnées discrètes en pied) - Bulle paused supervisée (jaune, boutons interactifs — déjà en J3.5) Templates de libellés volontairement neutres : le contexte métier (UHCD, peakflow, J12.1, IPP 25003284…) provient des payloads émis par le pipeline côté serveur, pas de hardcoding dans le client. Mappage events → bulles : lea:action_started ▶ bleu "Démarrage : {workflow}" lea:action_progress ⋯ bleu "{step}" ou "Étape {current}/{total}" lea:done ✓ vert / ✗ rouge selon success lea:need_confirm ? bleu "{action.description}" lea:step_result ✓ / ✗ / · selon status lea:resumed → vert "Reprise" lea:resume_acked (silencieux côté UI) lea:abort_acked (silencieux côté UI) événement inconnu · gris fallback neutre 18 nouveaux tests pytest (templates + extract_meta). Total branche : 47/47 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:18:52 +02:00
Dom	2af3bc3b93	feat(lea): bulle paused_need_help interactive — asset démo majeur Quand Léa bascule en pause supervisée (event 'lea:paused'), affichage d'une bulle dédiée dans ChatWindow avec encadré orangé, raison de la pause, et deux boutons Continuer/Annuler. C'est le moment qui incarne la différence RPA classique vs Léa devant Carvella : Léa SAIT qu'elle ne sait pas et demande de l'aide. Architecture (canal SocketIO bidirectionnel, pas de nouvel endpoint streaming) : ChatWindow ──[lea:replay_resume]──> agent_chat ──POST /resume──> streaming ChatWindow ──[lea:replay_abort ]──> agent_chat (running=False local) Composants ajoutés : - agent_chat/app.py : handlers 'lea:replay_resume' / 'lea:replay_abort' + acks 'lea:resume_acked' / 'lea:abort_acked' pour feedback côté client - network/feedback_bus.py : méthodes resume_replay() / abort_replay() avec helper _safe_emit (silencieux + retourne bool succès) - ui/chat_window.py : palette PAUSED_*, _add_paused_bubble(), _render_paused_bubble(), _close_active_paused_bubble() (auto-fermeture sur lea:resumed/done), _on_paused_resume/abort 8 nouveaux tests pytest (4 handlers serveur + 4 méthodes client). Total branche : 29/29 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:08:32 +02:00
Dom	41eba898c0	feat(agent_v1): FeedbackBusClient — client SocketIO pour bus 'lea:' Consomme les events 'lea:' émis par agent_chat (port 5004) et les dispatche vers un callback fourni par ChatWindow (J3.3 à venir). Caractéristiques : - Connexion en thread daemon (non-bloquant pour la mainloop tkinter) - Reconnect auto illimité (delay 2s → 30s exponentiel) - Auth Bearer Token via header HTTP au handshake - Fail-safe : connect échoué, callback qui raise, disconnect qui raise → tout silencieusement loggé, ChatWindow continue normalement 13 tests pytest verts (tests/integration/test_feedback_bus_client.py). Pas de connexion réseau réelle dans les tests (python-socketio mocké). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 08:43:26 +02:00
Dom	5e31cdf666	feat(agent_chat): bus feedback Léa 'lea:' derrière flag LEA_FEEDBACK_BUS Surface d'observation pour bulles temps réel ChatWindow (J2 démo GHT Sud 95). - Helper _emit_lea(event, payload): no-op silencieux si flag off - Helper _emit_dual(legacy, lea, payload): émet event existant + alias 'lea:' - Détection paused_need_help dans _poll_replay_progress → lea:paused - Détection sortie de pause → lea:resumed - Timeout étendu (120s→600s) pendant pause supervisée - 12 emits SocketIO existants aliasés (execution_started/progress/completed, copilot_step/step_result/complete) — payloads identiques, zéro régression Flag LEA_FEEDBACK_BUS=0 par défaut. Comportement legacy strictement préservé. 8 tests pytest verts (tests/integration/test_feedback_bus.py). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 21:48:38 +02:00
Dom	9da589c8c2	feat(grounding): pipeline centralisé + serveur UI-TARS transformers + nettoyage code mort Architecture grounding complète : - core/grounding/server.py : serveur FastAPI (port 8200) avec UI-TARS-1.5-7B en 4-bit NF4 Process séparé avec son propre contexte CUDA (résout le crash Flask/CUDA) - core/grounding/pipeline.py : orchestrateur cascade template→OCR→UI-TARS→static - core/grounding/template_matcher.py : TemplateMatcher centralisé (remplace 5 copies) - core/grounding/ui_tars_grounder.py : client HTTP vers le serveur de grounding - core/grounding/target.py : GroundingTarget + GroundingResult ORA modifié : - _act_click() : capture unique de l'écran envoyée au serveur de grounding - Pre-check VLM skippé pour ui_tars (redondant, et Ollama n'a plus de VRAM) - verify_level='none' par défaut (vérification titre OCR prévue en Phase 2) - Détection réponses négatives UI-TARS ("I don't see it" → fallback OCR) Nettoyage : - 9 fichiers morts archivés dans _archive/ (~6300 lignes supprimées) - 21 tests ajoutés pour TemplateMatcher Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-25 17:48:18 +02:00
Dom	00134963e5	test: 16 tests unitaires pour la boucle ORA Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 9s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Tests ORALoop init, Decision, reason_workflow_step (click, type, hotkey, wait, passthrough), verify (none, wait, done), run_workflow (empty, too_many), run_instruction (méthodes existent). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 10:43:28 +02:00
Dom	447fbb2c6e	chore: sauvegarde complète avant factorisation executor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Point de sauvegarde incluant les fichiers non committés des sessions précédentes (systemd, docs, agents, GPU manager). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:03:44 +02:00
Dom	309dfd5287	feat: process mining BPMN, détection changement écran pHash, OCR docTR Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Process Mining (core/analytics/process_mining_bridge.py) : - Bridge PM4Py : conversion sessions Shadow → event log → BPMN XML + PNG - KPIs automatiques : durée, variantes, goulots, distribution par app - Support sessions JSONL brutes et workflows core JSON - 42 tests (dont 1 sur données réelles) Détection changement d'écran (core/analytics/screen_change_detector.py) : - pHash (imagehash) : ~16ms par screenshot, seuils SAME/MINOR/MAJOR - 8 tests sur screenshots réels OCR docTR dans execute_extract_text : - docTR par défaut pour lecture simple (rapide, CPU) - Ollama VLM en fallback ou sur demande explicite (mode "vlm"/"ai") - Dual-mode adaptatif selon extraction_mode Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 13:07:56 +02:00
Dom	4f61741420	feat: journée 17 avril — tests E2E validés, dashboard fleet+audit, VWB bridge, cleaner C2 Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Pipeline E2E complet validé : Capture VM → streaming → serveur → cleaner → replay → audit trail Mode apprentissage supervisé fonctionne (Léa échoue → humain → reprise) Dashboard : - Cleanup 14→10 onglets (RCE supprimée) - Fleet : enregistrer/révoquer agents, tokens, ZIP pré-configuré téléchargeable - Audit trail MVP (/audit) : filtres, tableau, export CSV, conformité AI Act/RGPD - Formulaire Fleet simplifié (nom + email, machine_id auto) VWB bridge Léa→VWB : - Compound décomposés en N steps (saisie + raccourci visibles) - Layout serpentin 3 colonnes (plus colonne verticale) - Badge OS 🪟/🐧, filtre OS retiré (admin Linux voit Windows) - Fix import SQLite readonly Cleaner intelligent : - Descriptions lisibles (UIA/C2) + détection doublons - Logique C2 : UIElement identifié = jamais parasite - Patterns parasites resserrés - Message Léa : "Je n'y arrive pas, montrez-moi comment faire" Config agent (INC-1 à INC-7) : - SERVER_URL + SERVER_BASE unifiés - RPA_OLLAMA_HOST séparé - allow_redirects=False sur POST - Middleware réécriture URL serveur CI Gitea : fix token + Flask-SocketIO + ruff propre Fleet endpoints : /agents/enroll\|uninstall\|fleet + agent_registry SQLite Backup : script quotidien workflows.db + audit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-17 17:46:40 +02:00
Dom	7f2bc6fe97	feat(graph): enrichissement visuel des workflows (C2) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details GraphBuilder construit maintenant des ScreenState enrichis (ui_elements + detected_text) au lieu de stubs vides, et associe les clics aux UIElement par proximité spatiale. Détails : - __init__ accepte ui_detector, screen_analyzer, enable_ui_enrichment, element_proximity_max_px (+ lazy resolver via singleton C1) - _create_screen_states délègue à ScreenAnalyzer.analyze() — remplace l'appel à _extract_text() qui n'existait plus depuis le Lot C (bug silencieux : OCR cassé en prod depuis ce jour, caught except) - _find_clicked_element : bbox contenant strict + fallback proximité ≤50px, préfère le plus petit bbox (form vs button) - _build_click_target_spec : TargetSpec(by_role, by_text, selection_policy="by_similarity") avec ancres dans context_hints (anchor_element_id, anchor_bbox, anchor_center) - _build_edges propage le ScreenState source aux builders d'action - WorkflowPipeline passe ui_detector + enable_ui_enrichment au builder Impact : matching prod 3-5x plus précis, TargetSpec ne sont plus des "unknown_element" génériques, UIConstraint.required_roles se remplit correctement via _extract_common_ui_elements (qui marchait depuis toujours mais sur des state.ui_elements vides). Tests e2e migrés vers enable_ui_enrichment=False (2.9s vs 67s) — ils valident le pipeline DBSCAN/edges, pas la détection UI réelle. 15 nouveaux tests, 178 tests passants au total (incluant Lots A-E). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 22:02:30 +02:00
Dom	b808e48b1f	feat(fleet): endpoints /agents/enroll\|uninstall\|fleet + SQLite Endpoints REST pour le fleet management (utilisés par installeur Inno Setup) : POST /api/v1/agents/enroll -> 201 {status, machine_id, api_token, agent} POST /api/v1/agents/uninstall -> 200 {status, machine_id, agent} GET /api/v1/agents/fleet -> 200 {active, uninstalled, totals} Tous protégés par Bearer token (conforme _PUBLIC_PATHS existant). Nouveau module agent_v0/server_v1/agent_registry.py : - Classe AgentRegistry (sqlite3 stdlib, WAL, thread-safe via Lock) - CRUD + soft-delete (uninstall = status="uninstalled", historique préservé) - Table enrolled_agents créée via IF NOT EXISTS (pas de migration nécessaire) - Ré-enrollment après uninstall = réactivation auto (allow_reactivate=True) - Chemin DB configurable via RPA_AGENTS_DB_PATH (défaut data/databases/rpa_data.db) Fix fixture test_stream_processor : autouse RPA_API_TOKEN dans TestAPIEndpoints pour éviter SystemExit P0-C au module load. 13 tests intégration (enroll/uninstall/fleet + auth + edge cases). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:19 +02:00
Dom	78ee962918	feat(matching): match_current_state_from_state consomme enrichi (Lot E) Nouvelle méthode match_current_state_from_state(screen_state, workflow_id) qui utilise directement le ScreenState enrichi (window_title, detected_text, ui_elements) fourni par ExecutionLoop au lieu de reconstruire un stub ScreenState("Unknown", ui_elements=[], ...). Préfère HierarchicalMatcher si workflow chargeable, fallback FAISS sinon. L'ancienne API match_current_state(screenshot_path, workflow_id) est convertie en wrapper : appelle ScreenAnalyzer.analyze() puis délègue. Rétrocompat préservée. ExecutionLoop._execute_step utilise la nouvelle méthode -> plus de double analyze() dans le chemin d'exécution (économie latence). Premier vrai matching context-aware. 11 nouveaux tests + 2 tests integration loop. 172 tests non-régression verts. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:04 +02:00
Dom	c8a3618e27	feat(cache): ScreenStateCache clé composite context-aware (Lot D) Avant : clé = phash seul -> deux contextes différents avec même screenshot partageaient la même entrée cache -> collisions silencieuses. Après : clé composite {phash}\|{md5(ctx)[:16]} avec ctx = - window_title - app_name - enable_ocr - enable_ui_detection - workflow_id (isolation inter-workflows) get_or_compute() kwargs-only. TTL 2s et éviction LRU inchangés. invalidate_if_changed() continue de comparer uniquement les phash. ExecutionLoop propage tout le contexte au cache. 8 nouveaux tests prouvant : - même image + window différent = miss - même image + app différent = miss - même image + flags différents = miss - même image + workflow_id différent = miss - même image + même contexte = hit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:51 +02:00
Dom	9ca277a63f	refactor(pipeline): ScreenAnalyzer thread-safe et isolé (Lot C) Retrait de l'état global toxique : - analyze() : kwargs-only enable_ocr, enable_ui_detection, session_id - Ne mute JAMAIS self pour les flags (variables locales + branches) - _resolve_ocr_instance() / _resolve_ui_detector_instance() : lecture seule - _init_lock par instance pour lazy init concurrent safe - session_id par appel, plus via mutation singleton Avant : ExecutionLoop mutait analyzer._ocr, _ui_detector, _ocr_initialized, _ui_detector_initialized pour désactiver OCR/UI. Deux loops partageant le singleton se polluaient mutuellement. Après : deux loops partageant l'analyzer sont complètement isolés. Preuve par TestAnalyzerIsolationBetweenLoops (3 tests). Singleton get_screen_analyzer() préservé — garde uniquement les ressources lourdes, plus de contexte d'exécution. 9 nouveaux tests (3 isolation + 6 kwargs-only/lazy-init). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:41 +02:00
Dom	8c7b6e5696	feat(scoring): EdgeScorer utilise la vraie source_similarity (Lot B) Avant : source_similarity=1.0 hardcodé dans _check_preconditions -> la contrainte EdgeConstraints.min_source_similarity était silencieusement désactivée. Un edge passait toujours. Après : propagation ExecutionLoop -> workflow_pipeline -> EdgeScorer - select_best/rank/score_edge/_check_preconditions acceptent source_similarity: float (kwargs-only) - get_next_action() le propage - execution_loop passe la confidence issue de match_current_state La contrainte min_source_similarity est opérationnelle pour la première fois. Preuve concrète par test_min_source_similarity_fail et test_low_similarity_blocks_edge (edge rejeté si sim < seuil). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:28 +02:00
Dom	af4ffa189a	feat(analytics): normalise API + contrat explicite get_next_action (Lot A) Contrat get_next_action() — suppression du None ambigu : {"status": "selected", "edge": ..., ...} {"status": "terminal"} {"status": "blocked", "reason": "no_valid_edge" \| ...} ExecutionLoop dispatche proprement : blocked -> PAUSED + _pause_requested, terminal -> succès légitime. Rétrocompat défensive (None legacy -> blocked). Analytics API normalisée (kwargs-only) : on_execution_complete(duration_ms, status, steps_total\|completed\|failed) on_step_complete(duration_ms, ...) on_recovery_attempt(duration_ms, ...) Découverte critique : les anciens appels utilisaient des méthodes et champs inexistants (ExecutionMetrics.duration, metrics_collector.record_execution). Le code n'avait jamais tourné au runtime — zéro analytics remontée. L'exception était avalée par le try/except englobant. 58 tests (18 analytics + 11 contrat + 20 ExecutionLoop + 12 edge_scorer non-régression). Migration complète, pas de pont legacy. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:19 +02:00
Dom	36737cfe9d	feat(security): eval()→AST parseur + pickle→JSON+HMAC signé Vulnérabilité 1 — eval() dans DAG executor : - Nouveau module safe_condition_evaluator.py - Parseur AST avec whitelist (Constants, Names, Compare, BoolOp, BinOp) - Rejet explicite Call/Lambda/Import/__dunder__/walrus/comprehensions - Expression non sûre → logged ERROR + évaluée à False (pas de crash) - 31 tests (12 valides, 17 malveillantes rejetées, 2 intégration) Vulnérabilité 2 — 3× pickle.load() non sécurisés : - Nouveau module signed_serializer.py (JSON+HMAC-SHA256) - Format : RPA_SIGNED_V1\\n + JSON(hmac + payload base64) - Migration automatique transparente au premier chargement - Fallback pickle avec WARNING (désactivable RPA_ALLOW_PICKLE_FALLBACK=0) - Remplacement dans faiss_manager, visual_embedding_manager, visual_persistence_manager - 13 tests Clé signature : RPA_SIGNING_KEY (fallback TOKEN_SECRET_KEY puis hostname-derived). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:17 +02:00
Dom	93ef93e563	feat(security): API streaming fail-closed + /image privé + target_memory prefix fix P0-B — /api/v1/traces/stream/image retiré de _PUBLIC_PATHS : - Bearer token obligatoire pour upload d'image - Évite uploads anonymes de contenu arbitraire P0-C — Fail-closed si RPA_API_TOKEN absent : - sys.exit(1) au démarrage avec message fatal - Mode dev : RPA_AUTH_DISABLED=true pour désactiver explicitement - Log INFO des 8 premiers chars du token (diagnostic) Fix target_memory prefix empilé : - Strip "memory_" répétés avant stockage dans replay_memory.py - Évite "memory_memory_memory_template_matching" en base live_session_manager : améliorations mineures de la gestion sessions. 10 tests auth API stream. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:02 +02:00
Dom	bb4ed2a75d	feat(dashboard): session cleaner intégré + auth + nettoyage UI - Onglet "🧹 Nettoyage" dans le dashboard (iframe vers port 5006) - Indicateur d'état + bouton de démarrage si cleaner down - Service systemd rpa-session-cleaner intégré au target rpa-vision - svc.sh et services.conf incluent session-cleaner (port 5006) P0-A — Auth dashboard Flask : - HTTP Basic obligatoire sur tous les endpoints (sauf /health, /healthz) - Credentials via DASHBOARD_USER + DASHBOARD_PASSWORD - 13 tests Nettoyage UI : - Section "Détection Visuelle" OWL retirée (modèle remplacé par pipeline VLM) - Dashboard préfère auto shot_*_blurred.png (avec ?raw=1 pour brut) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:36 +02:00
Dom	f7b8cddd2b	feat(anonymisation): blur PII côté serveur via EDS-NLP + VLM local-first Blur PII server-side (core/anonymisation/pii_blur.py) : - Pipeline OCR (docTR) → NER (EDS-NLP + fallback regex) - Détection ciblée noms/prénoms/adresses/NIR/téléphone/email - Protection explicite CIM-10, CCAM, montants €, dates, IDs techniques - Dual-storage : shot_XXXX_full.png (brut) + _blurred.png (affichage) - 18 tests Client : - RPA_BLUR_SENSITIVE=false par défaut (blur serveur uniquement) - Zéro overhead côté poste utilisateur VLM config : - vlm_config.py : gemma4:latest, fallbacks qwen3-vl:8b + UI-TARS - think=false auto pour gemma4 (bug Ollama 0.20.x) - VLM provider VWB : local-first (Ollama), cloud opt-in via VLM_ALLOW_CLOUD Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:23 +02:00
Dom	aee64f54b1	feat(security): détection dialogues système Windows + fail-closed Nouveau module system_dialog_guard.py : - Détection UAC, CredUI, SmartScreen, Defender, Driver install - Multi-signal (ClassName UIA, process, title FR/EN, parent_path) - Faux positifs validés (OSIRIS, OBSIUS, MEDSPHERE, Chrome, Excel) Intégration dans executor.py et policy.py : - 6 points de décision (avant click/type/key_combo, VLM, policy) - Pause supervisée au lieu de clic aveugle - Fail-closed en cas d'exception (P0-D audit) - Notification systray + remontée serveur Fix mock test policy engine pour compat _system_dialog_pause=None. 39 + 5 tests unitaires. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:00 +02:00
Dom	013fe071a2	feat(streamer): purge après ACK + buffering SQLite persistant - Nouveau module persistent_buffer.py (SQLite WAL, thread-safe) - Purge automatique des captures locales après ACK 200 serveur - Drain loop 15s, retry exponentiel, plafonds tentatives - Enum ImageSendResult.{OK, FAILED, FILE_GONE} pour distinguer les cas - FileNotFoundError n'est plus un faux succès (P0-E audit) - 14 tests intégration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:35 +02:00
Dom	332366b58c	feat: câblage complet V4 — stratégie UIA + surface profile Pipeline V4 câblé de bout en bout : RawTrace (avec uia_snapshot) → IRBuilder → Action._enrichment WorkflowIR → ExecutionCompiler (avec SurfaceProfile) → ExecutionPlan ExecutionPlan → runner → target_spec (avec uia_target + resolve_order) ResolutionStrategy étendu : - Champs UIA : uia_name, uia_control_type, uia_automation_id, uia_parent_path - Champs DOM : dom_selector, dom_xpath, dom_url_pattern (préparation web) ExecutionCompiler.compile(surface_profile=...) : - Timeouts/retries tirés du profil (citrix=15s/3x, web=5s/1x, natif=8s/2x) - UIA primaire seulement si surface=WINDOWS_NATIVE et uia_available - Citrix ignore UIA même si snapshot présent (UIA ne marche pas dans Citrix) IRBuilder lit evt['uia_snapshot'] et le stocke dans action._enrichment (à remplir par l'agent Windows pendant l'enregistrement via lea_uia.exe) execution_plan_runner propage uia_target et dom_target dans target_spec pour que l'agent Windows puisse les consommer au runtime. 11 tests de câblage E2E : - Profils (Citrix/web/natif) imposent bien les timeouts - Stratégie UIA créée quand snapshot+surface OK - Stratégie UIA bloquée sur Citrix - IRBuilder propage uia_snapshot - Runner produit target_spec avec uia_target + resolve_order=['uia', 'ocr', 'vlm'] 496 tests au total, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 11:02:51 +02:00
Dom	ac9c207474	feat: SurfaceClassifier + UIAHelper — détection et wrapper Python SurfaceClassifier — détecte le type d'application au runtime - 4 surfaces : citrix / windows_native / web_local / unknown - Paramètres adaptés par surface : * Citrix : OCR 0.65, timeouts 15s, retries 3x (compression JPEG tolérée) * Windows natif : OCR 0.75, timeouts 8s, UIA bonus si dispo * Web : OCR 0.80, timeouts 5s, paramètres rapides * Unknown : fallback sûr - resolve_order() construit la chaîne selon les capacités disponibles - Détection UIA via health check du helper Rust - Détection CDP via localhost:9222 UIAHelper — wrapper Python pour lea_uia.exe - Subprocess + JSON stdin/stdout - 3 méthodes : query_at(x,y), find_by_name(name,...), capture_focused() - Fallback silencieux (None) si helper absent, timeout, crash - Singleton global get_shared_helper() - Dataclass UiaElement avec center(), is_clickable(), path_signature() 29 nouveaux tests (détection 4 surfaces, dataclass, wrapper, mocks). 485 tests au total, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 10:54:19 +02:00
Dom	172167f6c0	feat: Léa apprentissage — mode Shadow amélioré (observation + validation) Aspect 3/4 Léa : Léa montre ce qu'elle comprend pendant l'enregistrement. ShadowObserver (observation temps réel) : - Segmentation incrémentale en UnderstoodStep (changement app, pause, Ctrl+S) - Détection de variables pendant la saisie (typage : date, email, code, texte) - Notifications 4 niveaux : INFO, DECOUVERTE, QUESTION, VARIABLE - Heartbeat périodique, hook gemma4 optionnel (asynchrone) - Thread-safe (RLock), singleton partagé - Performance : 1000 events en < 500ms ShadowValidator (feedback utilisateur) : - 6 actions : validate, correct, undo, cancel, merge_next, split - Reconstruit un WorkflowIR propre avec variables substituées - Historique complet des feedbacks 5 endpoints REST /api/v1/shadow/* : - start, stop, feedback, understanding, build Hook non-bloquant dans stream_event() (try/except, no-op si inactif). Mode optionnel : pas d'impact tant que shadow/start n'est pas appelé. 54 tests (26 observer + 28 validator), 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:04:37 +02:00
Dom	42d49dd8bd	feat: Léa personnalité — langage métier multi-domaines Aspect 4/4 Léa : Léa parle le langage du métier, pas du robot. DomainContext enrichi avec 5 domaines : - tim_codage : CIM-10, CCAM, GHM, DP/DAS (enrichi) - comptabilite : factures HT/TVA/TTC, OCR, lettrage, PCG - rh_paie : bulletins, DSN, brut/net, congés, IJSS - stocks_logistique : BC/BL/BR, SKU, inventaires, picking - generic : fallback Nouvelle API DomainContext : - summarize_action(action, params) — click "DP" → "saisir le diagnostic principal" - pose_clarification_question(context) — question pertinente quand Léa bloque - describe_workflow_outcome(...) — rapport final en langage métier Exemples : TIM : "J'ai codé 14 dossiers sur 15. 1 en attente — codes CIM-10 ambigus." Compta : "Je ne trouve pas le champ montant de TVA. C'est bien la facture F2026-0145 ?" Intégration ui/messages.py : - Import lazy (pas de dépendance circulaire) - formatter_cible_non_trouvee utilise les templates de clarification métier - Rétro-compat : tous les anciens appels sans domain_id fonctionnent 47 nouveaux tests, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:01:52 +02:00
Dom	f541bb8ce4	feat: Léa chat + IRBuilder enrichi (stratégies V4 complètes) Aspect 2/4 Léa : interface conversationnelle - chat_interface.py : ChatSession thread-safe, états idle/planning/awaiting/executing/done - 5 endpoints REST : /api/v1/chat/* (session, message, history, confirm, sessions) - web_dashboard/chat.html + chat.js : UI minimaliste, polling 2s, pas de framework - Proxy Flask /api/chat/* → serveur streaming - 34 tests (happy path, abandon, refus, erreurs, gemma4 down) IRBuilder enrichi pour plans V4 complets - _event_to_action() appelle enrich_click_from_screenshot() quand session_dir dispo - Chaque clic porte _enrichment (by_text OCR, anchor_image_base64, vlm_description) - ExecutionCompiler consomme l'enrichissement pour produire 3 stratégies par clic Avant : [ocr] uniquement, target="unknown_window" Après : [ocr, template, vlm] avec vrai texte OCR ("Rechercher", "Ouvrir") Validé sur session réelle : 10/10 clics enrichis (by_text + anchor + vlm_description) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:01:13 +02:00
Dom	a6eb4c168f	feat: Léa UX — messages français naturels + feedback temps réel Aspect 1/4 de Léa (agent Windows) : rendre Léa humaine. Nouveaux modules : - agent_v1/ui/messages.py : 11 formatters (cible non trouvée, mauvaise fenêtre, écran inchangé, connexion, workflow, retry, ralentissement, erreur générique) - agent_v1/ui/activity_panel.py : panneau tkinter lazy avec état courant, action, progression X/Y, temps écoulé, 7 états (OBSERVE/CHERCHE/AGIT/VERIFIE...) Hiérarchie de notifications : - INFO (4s, vert) — début workflow, étape en cours - ATTENTION (7s, orange) — retry, ralentissement - BLOCAGE (15s, rouge, persistent, bypass rate-limit) — cible introuvable, mauvaise fenêtre Transformations de messages : AVANT : "target_not_found: dans *bonjour, – Bloc-notes" APRÈS : "Léa a besoin d'aide" "Je ne trouve pas « bonjour » dans Bloc-notes. Peux-tu cliquer dessus toi-même ? Je reprends ensuite." Robustesse : - Détection fenêtre Léa via regex word-boundaries (évite cléa.txt, leapfrog.exe) - Centralisée dans messages.est_fenetre_lea() — source unique de vérité - Noop stub universel via __getattr__ (plus besoin de lister les méthodes) - Thread-safe (RLock + snapshots immutables) - Fallback silencieux si tkinter/plyer absent 101 nouveaux tests, aucune régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:42:01 +02:00
Dom	f6ad5ff2b2	feat: runtime V4 honore resolve_order pré-compilé (zéro VLM au runtime) Le resolve_engine suit désormais l'ordre de méthodes décidé par l'ExecutionCompiler au lieu de sa cascade improvisée. C'est la pièce maîtresse du V4 : - execution_plan_runner.py : ajout de 'resolve_order' dans target_spec ["ocr", "template", "vlm"] = stratégies dans l'ordre de préférence - resolve_engine.py : _resolve_with_precompiled_order() honore l'ordre - Court-circuite la cascade legacy quand resolve_order est présent - Fallback sur la cascade si toutes les méthodes V4 échouent - _resolve_by_ocr_text() : résolution OCR directe via docTR (~200ms) Chemin rapide V4 — pas de VLM pour les éléments avec texte visible - 12 nouveaux tests : propagation resolve_order, cascade, fallback, pipeline E2E 220 tests passent (208 existants + 12 nouveaux), 0 régression. "Le LLM compile. Le runtime exécute." Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:28:55 +02:00
Dom	2ac781343a	feat: runtime V4 — endpoints /workflow/compile et /replay/plan Pipeline V4 complet disponible en API : RawTrace → /workflow/compile → WorkflowIR + ExecutionPlan → /replay/plan → Runtime - execution_plan_runner.py : adaptateur ExecutionNode → action executor - Substitution variables {var} dans target/text - Fusion stratégies primary + fallbacks (OCR, template, VLM) - Clicks: coordonnées neutralisées, resolve_engine trouve au runtime - 35 nouveaux tests (conversion, substitution, injection queue, pipeline E2E) - Ancien chemin build_replay_from_raw_events() préservé (coexistence) 208 tests passent, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:09:05 +02:00
Dom	bffcfb2db3	feat: ExecutionCompiler — compile WorkflowIR en plan d'exécution borné Pièce maîtresse de l'architecture V4 : - ExecutionPlan : nœuds avec stratégies de résolution pré-compilées - ExecutionCompiler : WorkflowIR → ExecutionPlan déterministe - Résolution : OCR (primaire, 100ms) > template > VLM (exception handler) - Chaque nœud : timeout, max_retries, recovery, condition de succès - Variables substituables, versionné, sérialisable JSON - 18 tests (compilation, stratégies, fallbacks, variables, roundtrip) "Le LLM compile. Le runtime exécute." Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 22:21:40 +02:00
Dom	cc673755f7	feat: WorkflowIR — représentation intermédiaire du savoir-faire Format canonique entre RawTrace (capture) et ExecutionPlan (exécution). C'est ce que Léa a COMPRIS en observant l'utilisateur. - WorkflowIR : steps, variables, intentions, pré/postconditions - IRBuilder : transforme les événements bruts en WorkflowIR via gemma4 - Générique : fonctionne pour TIM, compta, RH, stocks — le domaine est une couche par-dessus - Versionné, sérialisable JSON, save/load - Détection automatique des variables (texte saisi → substituable) - 18 tests (format, sérialisation, builder, segmentation, variables) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:50:32 +02:00
Dom	99041f0117	feat: pipeline complet MACRO/MÉSO/MICRO — Critic, Observer, Policy, Recovery, Learning, Audit Trail, TaskPlanner Architecture 3 niveaux implémentée et testée (137 tests unitaires + 21 visuels) : MÉSO (acteur intelligent) : - P0 Critic : vérification sémantique post-action via gemma4 (replay_verifier.py) - P1 Observer : pré-analyse écran avant chaque action (api_stream.py /pre_analyze) - P2 Grounding/Policy : séparation localisation (grounding.py) et décision (policy.py) - P3 Recovery : rollback automatique Ctrl+Z/Escape/Alt+F4 (recovery.py) - P4 Learning : apprentissage runtime avec boucle de consolidation (replay_learner.py) MACRO (planificateur) : - TaskPlanner : comprend les ordres en langage naturel via gemma4 (task_planner.py) - Contexte métier TIM/CIM-10 pour les hôpitaux (domain_context.py) - Endpoint POST /api/v1/task pour l'exécution par instruction Traçabilité : - Audit trail complet avec 18 champs par action (audit_trail.py) - Endpoints GET /audit/history, /audit/summary, /audit/export (CSV) Grounding : - Fix parsing bbox_2d qwen2.5vl (pixels relatifs, pas grille 1000x1000) - Benchmarks visuels sur captures réelles (3 approches : baseline, zoom, Citrix) - Reproductibilité validée : variance < 0.008 sur 10 itérations Sécurité : - Tokens de production retirés du code source → .env.local - Secret key aléatoire si non configuré - Suppression logs qui leakent les tokens Résultats : 80% de replay (vs 12.5% avant), 100% détection visuelle Citrix JPEG Q20 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:03:25 +02:00
Dom	13390a71e7	fix: SomEngine resolve — raccourci texte + proximité, fallback VLM robuste - Match texte exact avant partiel pour éviter les faux positifs - Disambiguïsation par proximité (center_norm) quand plusieurs matchs - Prompt VLM simplifié (liste labelée, 30 max, JSON concis) - Fallback regex pour extraire un numéro de réponse VLM non-JSON - Résultat : 0.3s par texte vs 5-15s par VLM Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 09:45:20 +02:00
Dom	4c76dca992	feat: intégration SomEngine dans build_replay (Phase 1) et resolve_target (Phase 2) Phase 1 : enrichit chaque clic avec som_element (id, label, bbox) via YOLO+docTR Phase 2 : nouvelle résolution SoM+VLM — SomEngine numérote, VLM identifie le mark 10 tests unitaires ajoutés, conftest unit/ pour le bon path agent_v0 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 09:30:14 +02:00

1 2

63 Commits