rpa_vision_v3

Author	SHA1	Message	Date
Dom	964856ab30	feat(workflow): variables runtime + extract_text serveur + t2a_decision LLM Pipeline streaming étendu pour supporter des actions exécutées entièrement côté serveur (jamais transmises à l'Agent V1) qui produisent des variables réutilisables dans les steps suivants via templating {{var}} ou {{var.field}}. == Variables d'exécution == - replay_state["variables"] : Dict[str, Any] initialisé vide à la création - _resolve_runtime_vars() : résout {{var}} et {{var.field}} récursivement dans str/dict/list. Variables absentes laissées intactes. - /replay/next applique la résolution sur l'action AVANT toute interception ou envoi à l'Agent V1. == Boucle d'exécution serveur == - _SERVER_SIDE_ACTION_TYPES = {"extract_text", "t2a_decision"} - /replay/next pop+execute en boucle ces actions jusqu'à trouver une action visuelle (à transmettre Agent V1) ou un pause_for_human (qui bloque). - Latence acceptable : t2a_decision = 5-10s côté serveur, l'Agent V1 attend la réponse HTTP. == Action extract_text == - Handler côté serveur réutilisant le dernier heartbeat (max 5s d'âge) - core/llm/ocr_extractor.py : EasyOCR fr+en singleton + extract_text_from_image - Stockage dans replay_state["variables"][output_var] - Robuste : pas de heartbeat → variable = "" + log warning, pipeline continue == Action t2a_decision == - core/llm/t2a_decision.py : refactor de demo_app.py query_model en module importable. Prompt expert DIM T2A/PMSI, qwen2.5:7b par défaut (100% bench). - Handler côté serveur appelle analyze_dpi(input_template_resolved) - Stockage du JSON décision dans replay_state["variables"][output_var] - Erreurs (Ollama down, parse) → variable = INDETERMINE + _error, pipeline continue == VWB UI == - types.ts : nouveau type 't2a_decision' (icône 🧠 catégorie logic) - extract_text refondu : needsAnchor=false, paramètre output_var (au lieu de variable_name legacy — bridge accepte les deux pour compat) - Bridge VWB→core : passthrough des deux types + paramètres préservés == Tests == - tests/integration/test_t2a_extract.py : 25 tests verts - templating runtime (8 tests) - handler extract_text (3 tests, OCR mocké) - handler t2a_decision (3 tests, analyze_dpi mocké) - edge → action normalisée (2 tests) - bridge VWB → core (5 tests) - workflow chain extract→t2a→pause→clic (1 test) Total branche : 82/82 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 22:47:31 +02:00
Dom	0e6e61f2b1	feat(workflow): action 'pause_for_human' — pause supervisée scriptée dans VWB Nouvelle action native VWB qui force le replay à basculer en paused_need_help avec un message custom. Quand Léa atteint cette étape, elle ne tente pas d'exécuter — elle pose immédiatement le state, ce qui déclenche la bulle interactive ChatWindow (J3.5) avec boutons Continuer / Annuler. Asset démo majeur GHT Sud 95 : permet de scénariser le moment "Léa doute" au bon endroit dans le workflow, sans dépendre d'un échec aléatoire. Chaîne complète : - VWB UI (types.ts) : nouvelle entrée ACTIONS catégorie 'logic', icône ⏸, paramètre 'message' éditable (textarea). - Bridge VWB → core (learned_workflow_bridge.py) : passthrough du type + préservation du message dans parameters. - Pipeline replay (replay_engine.py) : type ajouté à _ALLOWED_ACTION_TYPES, conversion edge → action normalisée préserve le message. - Streaming server (api_stream.py /replay/next) : interception avant envoi à l'Agent V1 → bascule state en paused_need_help avec pause_message, retourne {action: None, replay_paused: True}. - L'action n'est jamais transmise à l'Agent V1 — pure logique serveur. 10 nouveaux tests pytest. Total branche : 57/57 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 16:37:46 +02:00
Dom	a21f1ea9fa	feat: garde qualité résolution (B) + no_screen_change strict (C) Deux garde-fous qui ferment des trous identifiés lors du test de replay chirurgical du 11 avril 2026 sur sess_20260411T084629_2d588e. ## B — Garde qualité en sortie de cascade (_validate_resolution_quality) Couche de validation ajoutée en sortie du handler /resolve_target, après que la cascade (_resolve_target_sync) a produit son meilleur candidat. Single point of insertion, n'altère pas la cascade existante. Deux checks : 1. Seuil de score minimum par méthode (_RESOLUTION_MIN_SCORES) - hybrid_text_direct ≥ 0.80 - som_anchor_match / som_text_match ≥ 0.75 - template_matching ≥ 0.85 - vlm_* / grounding ≥ 0.60 - memory_* : pas de seuil (confiance cristallisée) - v4_uia_local / uia ≥ 0.90 2. Garde de proximité contre coords enregistrées Si fallback_x/y_pct sont significatifs (pas placeholder 0.5/0.5 ni 0.0/0.0), rejette si drift > 20% de l'écran dans un axe. Reproduit un faux positif vu en production : SoM a trouvé "Enregistrer" à (0.505, 0.770) alors que l'enregistrement était à (0.093, 0.356) — écart de 0.41. Quand un check rejette : retourne resolved=False avec method= "rejected_low_score_" ou "rejected_drift_" et reason détaillée. L'action passe alors par le chemin "visual_resolve_failed" côté agent → Policy → pause supervisée ou retry selon contexte. 7 tests unitaires inline validés (score bas, drift, mémoire qui passe toujours, placeholders V4 qui skip la garde drift, etc.). ## C — no_screen_change devient un échec strict en mode strict Avant : si un clic retourne warning='no_screen_change' (écran inchangé après action), le replay loggait un warning et CONTINUAIT à l'action suivante. Trop indulgent pour les workflows critiques. Maintenant : la branche no_screen_change consulte le flag success_strict de l'action courante. - success_strict=True : traité comme vrai échec → retry si retry_count < MAX_RETRIES_PER_ACTION → stop définitif sinon (status=error, queue vidée, callback) - success_strict=False (legacy) : comportement inchangé, on continue Prérequis : _create_replay_state copie maintenant success_strict, expected_window_before, expected_window_title, intention dans la version slim de actions stockée dans replay_state. Nécessaire pour lire le flag depuis current_action_index dans /replay/result. ## Tests - 7 tests unitaires inline sur _validate_resolution_quality - 56 tests E2E + Phase0 passent, zéro régression - Instrumentation [REPLAY] reste pleinement fonctionnelle ## Limites non traitées ici (explicites) - La latence de 14s entre deux clics (pre-analyze + cascade + agent polling) reste inchangée. Les menus déroulants Windows peuvent encore se refermer avant le 2ème clic. Piste A du plan, à traiter séparément. - L'intégration d'OS-Atlas-Base-7B comme grounder spécialisé reste dans les cartons (recommandation du rapport état de l'art). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-11 09:11:41 +02:00
Dom	b92cb9db03	feat: Phase 1 apprentissage — greffe TargetMemoryStore sur V4 Greffe minimale du mécanisme d'apprentissage persistant (Fiche #18, target_memory_store.py) sur le pipeline streaming V4 sans toucher à V3. Architecture (docs/PLAN_APPRENTISSAGE_LEA.md) : - Lookup mémoire AVANT la cascade résolution coûteuse OCR/template/VLM dans _resolve_target_sync → hit = <10ms, miss = overhead zéro - Record APRÈS validation post-condition (title_match strict) dans /replay/result → 2 succès → cristallisation par répétition - Single source of truth : l'agent remplit report.actual_position avec les coords effectivement cliquées, le serveur les lit directement. Pas de cache intermédiaire (option C du plan). Signature écran V4 : sha256(normalize(window_title))[:16]. Robuste aux données variables, faux positifs rattrapés par le post-cond qui décrémente la fiabilité via record_failure(). Fichiers : - agent_v0/server_v1/replay_memory.py : nouveau wrapper 316 lignes exposant compute_screen_sig/memory_lookup/record_success/failure, lazy-init du store, normalisation texte stable, garde sanity coords - agent_v0/server_v1/resolve_engine.py : lookup mémoire en tête de _resolve_target_sync (30 lignes) - agent_v0/server_v1/replay_engine.py : _create_replay_state stocke une copie slim des actions (sans anchor base64) pour retrouver le target_spec par current_action_index - agent_v0/server_v1/api_stream.py : 4 callers passent actions=..., record success/failure dans /replay/result lit actual_position du rapport (click-only), correction du commentaire Pydantic - agent_v0/agent_v1/core/executor.py : remplit result["actual_position"] après self._click(), transmis dans le report de poll_and_execute Tests : 56 E2E + Phase0 passent, zéro régression. Cycle Phase 1 validé en simulation : miss → record → miss → record → HIT au 3ème passage. Le deploy copy executor.py a une divergence pré-existante de 1302 lignes non committées — traité séparément lors du cleanup prochain. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 21:08:14 +02:00
Dom	4509038bf0	refactor: éclater api_stream.py (6400→3350 lignes) en modules - resolve_engine.py (1953 lignes) — résolution visuelle (template, VLM, SoM, YOLO) - replay_engine.py (1284 lignes) — gestion des replays (queue, setup, retry, validation) - api_stream.py (3352 lignes) — routeur principal (endpoints HTTP thin layer) Préparation V4 : base propre pour le WorkflowIR et l'ExecutionCompiler. 137 tests passent, 0 régression, aucun endpoint modifié. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:37:44 +02:00

5 Commits