rpa_vision_v3

Author	SHA1	Message	Date
Dom	fccc06e4a2	feat(server): floute aussi les focus_* (blind spot PII) Les screenshots focus_* (plein écran, ~1440 fichiers/350 Mo) contenaient des titres PII non floutés. La condition de blur serveur les inclut désormais, au même titre que shot__full et heartbeat_. Brut conservé, version _blurred produite en parallèle. (blind spot relevé par Qwen, revue 28/06) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 11:05:10 +02:00
Dom	6461f0a21b	feat(server): câble sanitize_event au chokepoint stream_event (PII) Assainissement PII appliqué une seule fois à l'entrée de stream_event(), avec un mapping de tokens par session (cohérence intra-session). Les chemins de persistance et de traitement (jsonl, worker.process_event_direct, shadow_observe_event, enrichissement SOM) consomment tous la copie assainie au lieu de l'event brut — plus aucune PII patient en clair côté serveur. Test de non-régression du câblage: stream_event ne doit jamais écrire de PII brute (IPP/contenu saisi) dans live_events.jsonl ni la propager au worker/shadow. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 10:39:27 +02:00
Dom	e84cdee393	fix(server): durcissement sanitizer PII suite revue adversariale Qwen - FN-1/2/3 : ajout RE_PRENOM_NOM (« Prénom NOM » inversé sans parens/crochets, ex. « Alix DATTIN ») ; 2e mot tout-majuscules -> 0 FP sur « Mozilla Firefox ». - FN-4 (majeur, 228 events) : sanitize_event scanne désormais les titres RÉCURSIVEMENT (vision_info.window_capture.window_title et tout titre imbriqué), au lieu de 3 clés top-level hardcodées. 2 correctifs issus de la revue croisée Qwen. 11 tests verts, 0 FP. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 20:24:52 +02:00
Dom	30d8f65e9a	feat(server): sanitize_event — assainissement PII au niveau event sanitize_event(event, mapping) applique le principe « Léa apprend l'interface, pas la donnée » (décision Dom 28/06) avant persistance : - text_input -> contenu (text + raw_keys) remplacé par [SAISIE] (option b) : résout la fuite la plus grave (contenu médical) SANS NER ni détection ; - titres de fenêtre (active_window_title + window/to/from.title) : identité patient tokenisée (anonymize_text), app/écran gardés ; cohérence par mapping. Copie défensive (ne mute pas l'event d'origine). 4 tests (9 au total) verts. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 19:53:09 +02:00
Dom	8e4d09594c	feat(server): assainissement PII couche regex+structurelle (tokens typés cohérents) pii_sanitizer.anonymize_text() remplace la PII par des tokens typés et cohérents ([IPP_1], [AGE_1], [NOM_1]) : protège la donnée ET garde la structure (type de champ) utile à l'apprentissage des variables. Sans modèle, déployable partout. Filet regex (IPP/NIR/TEL/EMAIL/AGE, repris de anonymisation) + règles structurelles cliniques (NOM (NAISSANCE) Prénom ; [Nom Prénom] PACS) + blacklist logiciels anti-FP. 5 tests verts. Couche NER (noms libres) en complément ensuite. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 19:08:43 +02:00
Dom	46ad5973d1	fix(agent_v1): assainissement PII des logs client a la source (push-log-DGX, brique 4) Remplace dans les logs/print le contenu utilisateur brut par un equivalent PII-safe via core/log_safe : titres de fenetre -> _title_hash, reponses VLM -> [len,has_target], metadonnees -> _sanitize_metadata, chemins -> _path_ext, workflow_name -> _title_hash. 8 fichiers (executor, recovery, captor, streamer, main, capture_server, activity_panel, window_info_crossplatform). Audit Qwen complete : ~17 fuites de titre multi-lignes + 2e fuite VLM (print) non listees ont ete traitees ; localisation par contenu (refs Qwen derivees). Preserve volontairement : prompts de grounding VLM (vlm_description) ou le titre est load-bearing (resolution 100% vision) -> ne PAS hasher. Differe : window_focus_change (verdict apprentissage). En attente arbitrage Dom : button_text (~11 captions), patterns, champs detail. py_compile 8/8 OK, imports OK, helper 6/6 vert. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-27 11:42:40 +02:00
Dom	4a38000e74	feat(agent_v1): helpers logging PII-safe (push-log-DGX, brique 4) Module agent_v1/core/log_safe.py — 3 helpers purs pour assainir les logs client à la source : _title_hash (SHA1[:8], corrélation sans révéler), _sanitize_metadata (drop title/active_window/window_title), _path_ext (extension seule). 6 tests unitaires verts. Module inerte (non encore wired) ; le branchement dans le code runtime suit en étape supervisée. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-27 11:24:54 +02:00
Dom	2597ca9110	feat(server): endpoint GET /api/v1/agents/logs/{machine_id} (push-log-DGX, brique 3) Route de diagnostic dashboard (read-only) : restitue les logs poussés par un poste, rangés par machine_id. Bearer global ; volontairement sans garde fleet (consultation d'un poste révoqué/en panne). limit=tail pour borner la réponse. 4 tests d'intégration verts ; store inchangé (briques 1-2 figées). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-27 10:47:08 +02:00
Dom	bbe897e614	feat(server): endpoint POST /api/v1/agents/logs (push-log-DGX, brique 2) Reçoit un batch de logs client, range via AgentLogsStore par machine_id. Garde-fous : auth Bearer (401), agent actif via _guard_agent_registry_access (403 si révoqué/inconnu, + touch_last_seen), cap anti-flood 413 (G3 Qwen, RPA_AGENT_LOGS_MAX_BATCH=1000). TDD 4/4 ; non-régression enroll 16/16. refs DETTE-020 DETTE-021 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-26 16:25:14 +02:00
Dom	a29b7a2f21	feat(server): store de logs clients par machine_id (push-log-DGX, brique 1) AgentLogsStore : append/read JSONL rangés par machine_id (fichier par jour), anti path-traversal sur machine_id (entrée réseau), purge_old rétention 30j (garde-fou G4 Qwen). TDD 3/3 vert. Pas encore wired (endpoint = brique 2). refs DETTE-020 DETTE-021 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-26 16:14:28 +02:00
Dom	105ade959d	chore(agent_v1): AGENT_VERSION configurable via RPA_AGENT_VERSION (amorce DETTE-022) Permet d'identifier la version déployée par poste (préparation MAJ auto). Inoffensif pour DETTE-021 ; nettoie le working tree avant déploiement Émilie. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-26 09:50:58 +02:00
Dom	29cb466595	fix(lea): journalisation client vers fichier (DETTE-021) setup_logging() branche un TimedRotatingFileHandler vers LOG_FILE (rotation quotidienne + rétention 180j, Règlement IA Art.12) + console. Sous pythonw (sans console), basicConfig->stderr était perdu => diagnostic terrain aveugle. main.py appelle setup_logging au démarrage, avec fallback console si le fichier est indisponible (ne jamais empêcher Léa de démarrer). TDD: tests/unit/test_agent_v1_logging.py (3 tests RED->GREEN ; module chargé par chemin pour éviter les imports lourds DETTE-011/013). py_compile main.py OK. refs DETTE-021 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-25 16:44:31 +02:00
Dom	ec1fb81054	fix(dashboard,worker): vérité produit P0 — dashboard+worker+VWB export Some checks failed tests / Lint (ruff + black) (push) Failing after 1m46s Details tests / Tests unitaires (sans GPU) (push) Failing after 2m0s Details tests / Tests sécurité (critique) (push) Has been skipped Details War-room clôture DGX 2026-06-18 (recadrage Dom : graphe/apprentissage/mémoire/dashboard = surface produit P0). Le dashboard et le statut worker affichaient des états faux ; corrige pour refléter la vérité du produit. - dashboard FAISS: distingue index brut / metadata HMAC invalide / runtime / absent (plus de faux "inactif") - dashboard process-mining: 503 explicite missing_dependency (plus de message trompeur) - dashboard /api/workflows + system/status: lecture DB VWB v3 canonique (total réel = 24, plus de 0) - worker /processing/status: véridique (lit _worker_health.json) + statut "idle/armé (lazy)" distinct de "dégradé (échec)" - VWB export: N steps -> N actions/edges (dernière action n'est plus perdue) - tests: dashboard routes, worker status truthfulness, export VWB Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-18 17:50:12 +02:00
Dom	667575c3ad	feat(installer): make Lea autonomous for POC	2026-06-17 17:53:46 +02:00
Dom	2b1743c206	fix(poc-agent): ouvrir le chat Lea DGX si Tk est indisponible Some checks failed tests / Lint (ruff + black) (push) Failing after 1m43s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m46s Details tests / Tests sécurité (critique) (push) Has been skipped Details	2026-06-15 21:32:54 +02:00
Dom	33c1e2e0d1	fix(grounding): confiance grounding dérivée sémantique (DETTE-019) Some checks failed tests / Lint (ruff + black) (push) Failing after 1m48s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m50s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le score/confidence figés à 0.85 dans _resolve_by_grounding rendaient le garde-seuil (_RESOLUTION_MIN_SCORES["grounding"]=0.60) inopérant (0.85>0.60 toujours accepté). Le grounding VLM n'a pas de confiance modèle native (prompt {"x","y"}, pas de logprob de localisation — confirmé QG Qwen 2026-06-15). On dérive une confiance SÉMANTIQUE : le texte cible est-il à la position trouvée ? (_validate_text_at_position). Confirmé→0.90, absent→0.45 (<seuil→rejet), non vérifiable→0.70. Confiance contextuelle documentée, PAS une proba modèle. TDD : 5 tests (score varie / présent accepté / absent rejeté / score==confidence / sans by_text neutre), RED→GREEN. Non-régression : 24 tests resolve_engine + câblage qwen3vl + legacy bbox verts. E2E panel inchangé (15/15). Pré-check OCR non impacté. DETTE-018 (legacy non gardé) reste séparée. refs DETTE-019 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-15 09:17:46 +02:00
Dom	5c5ce747b0	feat(grounding): câblage Qwen3-VL-4B/vLLM (RPA_GROUNDING_ENGINE, défaut off) Active via RPA_GROUNDING_ENGINE=qwen3vl_vllm (défaut OFF = legacy Qwen2.5-VL inchangé, byte-identique). Mode qwen3vl : port 8001/Qwen3-VL-4B, prompt point 0-1, think=false, parse /1000 (dissout DETTE-006), method "grounding" gardée (seuil 0.60), pas de fallback Ollama (abstention si vLLM down). Grounder validé au bench Easily réel (0.933, ~1s/cas). TDD : 4 tests (normalisation 0-1000, think=false, prompt fractions 0-1, gating score bas). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-13 08:39:29 +02:00
Dom	b20d17882e	feat(wp-c): méthode verify_token côté registre (patch 3, inerte) Ajoute AgentRegistry.verify_token(token) -> machine_id\|None : compare le SHA-256 du token aux token_hash des agents 'active' via hmac.compare_digest (temps constant). Agent désinstallé/révoqué refusé ; rotation à l'enroll invalide l'ancien token. Inerte au runtime : méthode non branchée sur l'auth HTTP (le branchement derrière flag RPA_FLEET_PER_AGENT_TOKEN sera le Patch 4). api_stream.py intouché. TDD : 6 tests + non-régression WP-C/WP-B (53 verts). Voir PLAN-WPC-TDD-EXECUTABLE. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-10 14:21:04 +02:00
Dom	9fb2c7bfee	feat(wp-c): génération token par poste à l'enroll (patch 2, inerte runtime) Génère un token unique (secrets.token_hex(32)) à chaque (ré)enrôlement, persiste uniquement son empreinte SHA-256 dans token_hash, renseigne token_issued_at, retourne le clair une seule fois dans le résultat de enroll. Le clair n'est jamais journalisé ni persisté. Inerte au runtime : api_stream.py intouché, l'endpoint /agents/enroll ne propage ni le clair ni le hash (api_token global inchangé). Auth runtime non modifiée. Aucun branchement _verify_token. TDD : 8 tests + non-régression WP-B/WP-C (47 verts). Voir PLAN-WPC-TDD-EXECUTABLE / DETTE-015. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-10 11:36:44 +02:00
Dom	f7f6926410	feat(wp-c): migration colonnes token par poste (patch 1, inerte) Ajoute token_hash + token_issued_at à enrolled_agents via ALTER TABLE idempotent (_init_db). Colonnes inertes : aucun branchement auth, runtime inchangé (tests WP-B verts). Base du token par poste (WP-C, cf DETTE-015). TDD: tests/unit/test_wpc_migration.py (présence, idempotence, préservation des données d'une base existante). 3 tests + non-régression WP-B = 9 passed. refs DETTE-015 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-09 21:04:18 +02:00
Dom	09f65cecbe	fix(security): bind 127.0.0.1 par défaut via RPA_BIND_HOST (plus de host=0.0.0.0 en dur) Some checks failed tests / Lint (ruff + black) (push) Failing after 1m44s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m48s Details tests / Tests sécurité (critique) (push) Has been skipped Details Les 4 entrypoints HTTP (api_stream 5005, api_upload 8000, VWB backend 5002, dashboard 5001) bindaient host=0.0.0.0 en dur -> exposés sur tout le réseau. Désormais host=os.environ.get('RPA_BIND_HOST','127.0.0.1') : local-only par défaut, configurable. Découvert à la mise en service DGX local-only. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-08 17:49:58 +02:00
Dom	6d34b3cb68	chore(dgx): snapshot consolidation WIP pour transfert poc DGX Some checks failed tests / Lint (ruff + black) (push) Failing after 1m44s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m49s Details tests / Tests sécurité (critique) (push) Has been skipped Details Regroupe le WIP non committé requis pour le clone/runtime DGX (Option A) : - api_stream.py : préflight replay + smoke santé modèles + handler 403 WP-B - de-hardcode VLM : vlm_config, gpu/*, vram_orchestrator, ollama_manager - stream_processor, semantic_matcher, agent_chat (app/planner/intent) - workflows.db (acquis ; le transfert artifacts le mettra à jour + rewrite chemins) - docs : plans DGX, benchmarks VLM/grounders, recherche SOTA, coordination 8 juin Snapshot destiné à la branche poc-dgx poussée sur Gitea pour cloner le DGX. Scan anti-secret : clean. graphify (repo embarqué) exclu. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-08 16:33:58 +02:00
Dom	f18de016d7	fix(wp-b): verrou d'enrôlement du parc (RPA_FLEET_ENROLL_LOCKED) Ferme le contournement "poste révoqué + nouveau machine_id + token global" : quand RPA_FLEET_ENROLL_LOCKED=true, l'enrôlement d'un machine_id INCONNU est refusé (FleetEnrollLockedError). Les machines déjà connues conservent leur comportement : active -> AlreadyEnrolled, désinstallé non-revoke -> réactivable, admin_revoke -> Revoked. - agent_registry.py : _fleet_enroll_locked() + FleetEnrollLockedError + gate avant INSERT - tests/unit/test_fleet_enroll_lock_wpb.py : 6 tests (verts) NB : le handler HTTP 403 (api_stream.py /api/v1/agents/enroll) reste dans le WIP de la branche (api_stream déjà modifié par le préflight non committé) — sera embarqué au commit de consolidation api_stream. La logique de sécurité (gate) est dans agent_registry, committée. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-08 15:43:04 +02:00
Dom	0e215da842	feat(p1g): device policy GPU/CPU paramétrable pour la cascade vision resolve_device(auto/cuda/cpu) avec garde-fou VRAM et fallback CPU propre. Bascule EasyOCR/SoM/docTR sur GPU si VRAM libre, rollback env sans toucher au code. - core/gpu/device_policy.py (nouveau) : resolve_device + garde-fou VRAM (max_total_gb) - core/detection/som_engine.py, core/llm/ocr_extractor.py, agent_v0/server_v1/resolve_engine.py : câblage device auto (35 lignes) - tests/unit/test_device_policy.py : 15 tests (verts venv réel) Rollback sans toucher au code : RPA_VISION_DEVICE=cpu (force CPU global) / RPA_EASYOCR_GPU=0. Bench GPU réel (latence) + activation large après verdict Qwen. QG Qwen deja valide sur le patch. Mergé depuis worktree agent-a4f390f410e00ad7c (base `5b2afa362`), 3 fichiers cibles non modifiés dans le principal (zéro écrasement), dry-run apply propre. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-08 15:20:52 +02:00
Dom	4dc7d840d6	feat(p1x): de-hardcode VLM models/endpoints to vlm_config (DGX-ready) Migre les call-sites VLM serveur vers la configuration centrale pour fonctionner sur DGX (tunnel Ollama 11434), où gemma4:* est absent et le port Docker 11435 est mort. - task_planner, replay_verifier, domain_context, ir_builder, resolve_engine (popup): modele -> vlm_config.get_vlm_model(), defaut 11435 -> 11434 (override GEMMA4_PORT legacy conserve) - resolve_engine (grounding bbox x2): nouvel helper vlm_config.get_bbox_grounding_model() (var dediee RPA_BBOX_GROUNDING_MODEL, fallback RPA_GROUNDING_MODEL puis qwen2.5vl:7b-rpa) -> desambiguise le conflit D5-v3b, bbox_2d + num_ctx 4096 preserves - safety_checks_provider: defaut -> get_vlm_model(), override RPA_SAFETY_CHECKS_LLM_MODEL preserve - ui_detector: default_factory + resolution lazy (corrige aussi un gel a l'import), pas d'appel reseau a l'import - field_extractor: property lazy via vlm_config TDD strict (RED->GREEN), 305 tests verts, tests mockes HTTP (zero dependance DGX reel), aucun alias Ollama. Hors perimetre (arbitrage Dom): client Lea agent_v1/executor.py (gele), chemin V4 observe_reason_act (RPA_REASONING_MODEL), core/config.py defaults. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 14:06:03 +02:00
Dom	5289f3de48	feat(p11): learn from offline cross-session matches	2026-06-02 17:46:15 +02:00
Dom	d38f0b0f2f	feat(agent): add learn action flow and grounding guards	2026-06-02 16:24:10 +02:00
Dom	86b3c8f7e7	feat(p1): persist workflows and semantic learning artifacts	2026-06-02 16:20:38 +02:00
Dom	7a1a5cb6fd	fix(p0): secure agent revocation and R6 worker queue	2026-06-02 15:52:35 +02:00
Dom	7ef98d8089	feat(lea): expose competence replay api	2026-05-29 13:40:15 +02:00
Dom	4ba426c205	fix(replay): guard single in-flight dispatch Add a private in-flight helper for replay dispatch, block machine retargeting while an action is still pending on the previous session, and warn on duplicate in-flight entries for the same replay triplet. Freeze the Notepad runtime dialog success path and add integration coverage for single in-flight dispatch, watchdog late-report documentation, and the known concurrent-poll race as an xfail.	2026-05-25 11:00:59 +02:00
Dom	10136f0ee0	feat(agent): add standalone anchor-relative resolver	2026-05-24 21:54:39 +02:00
Dom	345762330b	fix(agent): respect server visual reject before text fallback	2026-05-24 21:10:42 +02:00
Dom	b1b32187ba	fix(agent): P0.6 guard human corrections	2026-05-24 21:07:12 +02:00
Dom	ad24d16d83	fix(executor): P0.9 double-check stabilité post-transition fenêtre Bug observé sur replay_sess_56c10222 (2026-05-24 20:14) : action 11 (clic 'Enregistrer' expected_after='Enregistrer sous') marquée success=True alors que 2 actions plus tard la fenêtre observée est 'NoMachine Desktop Viewer'. Le polling post-vérif a probablement matché brièvement 'Enregistrer sous' puis l'écran a changé sans qu'on ne revérifie. Dom : "Le contrat est rompu : Léa passe d'une action à l'autre sans vérifier que la précédente est bonne. Il faut un contrôle de résultat, si on ne sait pas on demande." Patch : juste après le match initial, attendre 0.5s et reverifier la fenêtre active. Si elle a divergé (race condition, dialog auto- fermée, focus change OS) → matched=False, le flow strict existant prend le relais avec wrong_window + needs_human. Ne touche que les cas où expected_after est défini ET pas de runtime_dialog géré entre temps (le runtime_dialog est légitime de changer la fenêtre). Tag rollback : rollback/pre-P0.9-2026-05-24_2148	2026-05-24 20:24:46 +02:00
Dom	a76f3db682	feat(executor): P1 DialogResolver serveur en fallback du catalog local Léa avait déjà une infra pour les dialogs runtime (`_match_known_runtime_dialog` + `_handle_known_runtime_dialog`) mais avec un catalog local limité à 2 entrées. Le DialogResolver R2 côté serveur a 10 entrées centralisées. P1.MVP : `_try_dialog_resolver_server()` consulte l'endpoint `/api/v1/dialog/resolve` quand le catalog local n'a pas matché. La réponse `DialogResolution` est convertie en dialog_spec compatible avec `_handle_known_runtime_dialog` qui réutilise la cascade existante (serveur VLM grounding + template matching local). - Flag `RPA_DIALOG_RESOLVER_AGENT_ENABLED` (OFF par défaut) — rollback runtime - Auth Bearer via `_auth_headers()` existant - Timeout 3s, fail-safe sur exception/503/no-match → fallback humain intact - Zéro régression sur les chemins existants (le catalog local reste 1ère ligne) Tests unitaires en local (6/6 OK) : - flag OFF → None - serveur 503 → None - matched=False → None - policy=pause (UAC) → None - match auto + click_button → dialog_spec valide - exception réseau → None Tag rollback : rollback/pre-P1-2026-05-24_2105	2026-05-24 19:59:22 +02:00
Dom	9a029a221d	fix(executor): timeout _capture_human_correction 120s → 30s Friction UX remontée par Dom sur replay live (replay_sess_63a1313b) : latence excessive 2-3 minutes après un échec d'action avant que Léa ne reprenne la main. 120s = trop long pour un humain en supervision. 10s d'inactivité reste le critère prioritaire (déjà en place), donc : - humain actif : la correction est captée et le replay reprend en ~1s - humain absent : on libère après 30s au lieu de 120s 5 sites d'appel + signature de fonction (default param) alignés. Tag rollback : rollback/pre-P0.8-2026-05-24_1912 Référence : message 2026-05-24_1910_claude-to-codex_p07-memory-sanity-fix-human-supervised-bug-frictions-ux.md	2026-05-24 19:14:12 +02:00
Dom	5ed1810ef3	fix(memory): rejeter coords (0,0) et hors [0,1] dans memory_record_success Bug observé sur replay_sess_63a1313b 2026-05-24 18:31-18:32 : _capture_human_correction() côté Léa retourne des human_actions sans clic humain réel (cause racine côté agent à investiguer = P0.6). En cascade, memory_record_success était appelé avec coords (0.0, 0.0) et stockait des entrées poison dans target_memory.db. Le sanity check existant rejetait < 0 ou > 1 mais laissait passer (0,0) qui est mathématiquement valide. Au prochain replay, memory_lookup trouvait l'entrée poison et faisait cliquer Léa au coin haut-gauche. Patch : rejet explicite de (0,0) + warning au lieu de debug pour les coords hors [0,1] (besoin de tracabilité runtime). Filet en aval — la vraie cause côté Léa reste à corriger (P0.6). Tag rollback : rollback/pre-P0.7-2026-05-24_1850	2026-05-24 19:01:18 +02:00
Dom	c9878f0a76	fix(validator-v2): override success=False uniquement sur TERMINATE Symptôme observé sur replay_sess_7a4c8e72 (24/05 17:57) : - Action act_setup_sess_verify (type=verify_screen) échoue 4x (+3 retries) - Logs: [VALIDATOR_V2] override success→False verdict=continue conf=0.30 failure_category=None reason='Aucun changement visible pour verify_screen (normal pour ce type d'action)' - Replay tombe en status=error à 7/15 (régression vs 12/15 sans V2) Cause: api_stream.py:3674 testait `if verdict != COMPLETE` (trop large) → toute action qui ne change pas drastiquement l'écran (verify_screen, wait, key_combo Ctrl+S avant ouverture dialog, etc.) renvoie verdict=CONTINUE conf=0.30 du PixelDiffChecker via le default_checker de l'orchestrator, ce qui était traité comme un échec à overrider. Fix: override SEULEMENT sur verdict=TERMINATE (échec certain avec failure_category). CONTINUE = faible signal = on laisse le pipeline historique trancher. COMPLETE n'a pas besoin d'être traité ici car on est déjà dans `if report.success:` (success initial vrai). Effet: - verify_screen/wait/key_combo non-interactif → orchestrator retourne CONTINUE conf=0.30 → V2 ne touche pas report.success (comportement legacy préservé) - click qui rate (act_raw_6c1432b3 type cible) → OcrRoiChecker retourne TERMINATE conf=0.85 failure_category=WRONG_APPLICATION → override OK Tests R1 inchangés (TERMINATE branch testée explicitement). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:59:35 +02:00
Dom	08701761e6	merge(R2): DialogResolver MVP P0 (worktree a86565d0)	2026-05-24 17:53:35 +02:00
Dom	84d2d4a667	feat(dialog): R2 MVP P0 — DialogResolver + catalogue 10 entrées (flag OFF default) - agent_v0/server_v1/core/dialog/ : catalogue compact + DialogResolver stateless (match titre + evidence, trichotomie stricte auto/pause/skip). - 10 entrées P0 : confirm-save-overwrite, notepad-unsaved-changes, windows-file-explorer (fallback replay 4c38dbb8), easily-save/overwrite/ confirm-action/clinical-warning, windows-uac, windows-hello-credui, edge-update. - Validateur déclaratif `system_modals_cannot_be_overridden` : rejette toute surcharge auto/skip sur modaux SYSTÈME (windows-/defender-). - Endpoint POST /api/v1/dialog/resolve derrière flag RPA_DIALOG_RESOLVER_ENABLED (OFF par défaut → 503). Aucun rebranchement côté agent_v1 (executor.py inchangé, P1 plus tard). - 25 tests pytest passants (19 unit + 6 intégration HTTP). Spec : docs/recherche/SPEC_POPUPS_CATALOGUE.md §2bis / §3. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:52:38 +02:00
Dom	1b4e64960b	feat(validator): R1 MVP P0 — OcrRoiChecker + orchestrator (flag OFF default) Package core/validation/ minimal : - result.py : Verdict, FailureCategory, ValidationResult - pixel_diff_checker.py : wrapper de ReplayVerifier.verify_action - ocr_roi_checker.py : ROI 80px autour du clic, détecte WRONG_APPLICATION via SUSPECT_TOKENS (edge/https/explorateur de fichiers/…) - orchestrator.py : Validator dispatch action_type → checkers + agrégation Wiring api_stream.py:3646 derrière RPA_VALIDATOR_V2_ENABLED (OFF par défaut). Si verdict ≠ COMPLETE, override report.success=False et expose failure_category dans result_entry. Zero régression flag OFF. Tests : - tests/unit/test_validator_v2.py : 13 tests (Checkers + Validator + sérialisation) - tests/integration/test_validator_step10.py : 2 tests reproduisant le bug replay_sess_4c38dbb8 / act_raw_6c1432b3 (clic Enregistrer fait basculer vers Explorateur de fichiers) — Validator retourne WRONG_APPLICATION Activation pour test live : RPA_VALIDATOR_V2_ENABLED=true Cf. docs/recherche/SPEC_VALIDATOR_MATRICE.md, AXE_B2_DEEP_VALIDATOR.md. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:52:06 +02:00
Dom	bd100bc538	fix(critic): R0 — réveiller l'enrichissement gemma4 (Critic sémantique) Symptôme observé replay_sess_4c38dbb8 (24/05) : - 0/15 actions avec expected_result rempli - Conséquence : api_stream.py:3630 verify_with_critic() jamais appelé (conditionné à action.expected_result non vide) - Donc Critic sémantique (Ollama) désarmé en production, seul le pixel-diff tournait Causes racines identifiées : 1. _GEMMA4_PORT=11435 hardcodé (legacy Docker dédié supprimé) → check /api/tags timeout silencieux → fonction sort early 2. _CRITIC_MODEL="gemma4:e4b" hardcodé → modèle non installé 3. "think": True dans le payload → "qwen2.5vl:7b-rpa" does not support thinking → 400 sur tous les appels → if not resp.ok: continue 4. Prompt sans few-shot → qwen2.5vl converse au lieu de respecter le format strict INTENTION/AVANT/APRES → parsing vide Fix (stream_processor.py) : - _GEMMA4_PORT default 11435 → 11434 (Ollama native) - _CRITIC_MODEL = os.environ.get("RPA_CRITIC_MODEL", "qwen2.5vl:7b-rpa") - Remplacement de 3 "gemma4:e4b" hardcodés → _CRITIC_MODEL - _unload_gemma4() → no-op (legacy Docker n'existe plus) - Prompt enrichissement : ajout exemple few-shot (Cliquer Enregistrer) - "think": True → False (qwen2.5vl ne supporte pas) Config .env.local : - RPA_VLM_MODEL=qwen2.5vl:7b → qwen2.5vl:7b-rpa (variant num_ctx=8192, créé via Modelfile pour permettre offload partiel GPU sur RTX 5070 12 GB ; sans ça, num_ctx=128k par défaut = 12.5 GB requis = OOM full CPU fallback observé 17:11 le 24/05) Validation : - Avant fix : 0/8 actions enrichies (110 ms total = appels échoués immédiatement avec 400) - Après fix : 5/8 actions enrichies en 35s (~7s/action, cohérent avec appels VLM réels qwen2.5vl) Side effects systemd (à committer séparément côté infra) : - OLLAMA_KEEP_ALIVE: 5m → 24h - t2a-viewer.service stopped + disabled (libère ~2.9 GB VRAM) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:42:44 +02:00
Dom	1647e42d32	fix(agent_v1): keepalive headless quand pystray ne peut pas tenir le main thread Symptome (3 incidents 24h les 24/05) : apres relance distante de Lea via SSH, les polls /replay/next repartent un moment puis s'arretent. Diagnostic : - agent_v1/ui/smart_tray.py:875 utilise pystray.Icon.run() comme boucle principale - main.py:132-133 lance _replay_poll_loop et _background_heartbeat_loop en daemon threads - Quand Lea est lancee via sshpass sans session interactive Windows, pystray echoue (pas de systray accessible) et icon.run() sort - agent.run() retourne, main() retourne, main thread termine - Les daemon threads meurent avec le main thread (par design Python) Fix : _headless_keepalive() maintient le main thread vivant via threading.Event quand agent.run() sort en laissant agent.running=True (cas anormal). Handlers SIGTERM/SIGINT/SIGBREAK pour shutdown propre. Invisible en mode interactif normal (icon.run() ne sort jamais). Pas de modification de smart_tray ni de la cascade visuelle. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 16:51:19 +02:00
Dom	7df51d2c79	snapshot: WIP 5j replay reliability (B1 watchdog + dialog handlers + grounding drift) Snapshot avant correction du blocage relance Léa (3 incidents 24h: SSH refusé, polls morts ×2). Point de rollback stable. Contenu: - agent_v1/core/executor.py: 5 patchs dialog handling (saveas drift, close_tab hotkey fallback, confirm_save Unicode apostrophe, foreground dialog recontextualization, runtime_dialog in-loop) + helpers normalize_window_hint, requires_post_verify_window_transition - agent_v1/core/grounding.py: garde drift template fix (fallback_x/y plumbed) - server_v1/replay_watchdog.py (NEW): orphan watchdog B1, scan 10s timeout 30s - server_v1/api_stream.py: dispatched_action plumbing, watchdog lifespan, metrics endpoint - server_v1/replay_engine.py: _schedule_retry préserve original_action + dispatched_action - stream_processor.py: gardes _infer_tab_switch_target (no false switch_tab on save_as dialog open) + _attach_expected_window_before - tests/integration: test_replay_watchdog.py (8 cas), test_stream_processor.py - tests/unit: test_executor_verify_window_guard.py (start_button, close_tab, runtime_dialog, post_verify, transition fallbacks) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 16:48:37 +02:00
Dom	5ea4960e65	backup: snapshot post-démo GHT 2026-05-19 Some checks failed tests / Lint (ruff + black) (push) Successful in 1m50s Details tests / Tests unitaires (sans GPU) (push) Failing after 1m50s Details tests / Tests sécurité (critique) (push) Has been skipped Details Backup état complet après enregistrement vidéo démo de bout en bout. À utiliser comme point de référence pour la consolidation post-démo. Changements majeurs de la session 18-19 mai : - AIVA-URGENCE : page autonome avec preset URL + auto-focus chain - Workflow Demo_urgence_3_db : merge linux_db + steps AIVA + pause humaine NoMachine - Bypass LLM (static_result / static_text) dans replay_engine pour démos déterministes sans appel Ollama - Fix api_stream:3013 — replay_paused au premier polling /next - dag_execute : lift duration_ms vers top-level pour wait runtime - NPM bypass auth /aiva-urgence/ via location ^~ (proxy_host/10.conf hors git) - scripts/cancel-replays.sh — workaround Stop VWB qui ne purge pas la queue Anchors visuels (468) forcés dans le commit pour garantir restorabilité. DB workflows actuelle + ~12 .bak DB de la journée incluses. Sujets identifiés pour consolidation post-démo (TODO) : 1. Bug VWB recapture anchor ne régénère pas le PNG 2. Léa client accumule état mémoire (restart périodique requis) 3. Stop VWB ne purge pas la queue serveur (lien manquant vers /replay/cancel) 4. Bug coord client mss tronqué 2560x60 → mapping Y cassé 5. delay_before/delay_after ignorés au runtime (fix partiel duration_ms) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 14:55:06 +02:00
Dom	9872f4510c	feat(t2a): build_dpi_enriched - extraction déterministe horaires + classifications cliniques Préprocesseur Python qui injecte un bloc FAITS_CALCULÉS en tête du DPI avant l'appel LLM, pour neutraliser l'hallucination de durée (bug "23h" sur cas MOREL, confusion avec "depuis 23h" de l'Observ. IDE Urg). Extrait depuis le bandeau Easily Assure et la Synthèse Urgences : - âge (dateutil.relativedelta) - date admission / sortie + durée passage (format humain + décimal) - CCMU / GEMSA libellé complet (parser multi-ligne) - priorité IAO, mode de venue / médicalisation / mode d'entrée - diagnostic principal - decision_terrain + orientation_terrain (metadata only, jamais injectés dans le prompt pour ne pas biaiser le LLM) Retour tuple (dpi_enriched, metadata) pour permettre les garde-fous serveur Python ↔ LLM au commit 2. Robustesse : - re.search 1re occurrence + WARNING si bandeau divergent multi-occurrences - Synthèse Urgences priorité sur bandeau pour dates - Valeur exigée sur même ligne que label (évite capture de section title) - Cas négatif (horaires absents) → "NON CALCULABLE" + parsing_warnings - Jamais de crash, retour tuple toujours valide Tests : 4/4 verts (golden MOREL string + metadata, négatif sortie absente, DPI vide). Pas de régression sur tests/integration/test_t2a_extract.py. Brief complet : docs/handoffs/2026-05-12_brief_S1_build_dpi_enriched.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-12 18:49:49 +02:00
Dom	bfbf0f9c3e	refactor(grounding): centralise parser bbox_2d Avant : 4 occurrences de parsing en cascade dans resolve_engine.py (L840-885, L903-915, L2569-2580, ~110 lignes au total). Après : centralisation dans core/grounding/bbox_parser.py avec paramètre formats= permettant de filtrer les formats reconnus selon le contrat sémantique de chaque site d'appel. Préservation des contrats sémantiques (strict no-op) : - Occ 1+2 (cascade principale) : tous formats (par défaut) - Occ 3 (retry multi-image) : formats={"xy_json", "raw_array"} pour respecter le prompt qui impose {"x": NNN, "y": NNN} in pixels - Occ 4 (_locate_popup_button) : formats={"bbox_2d"} pour respecter le prompt qui demande "bounding box" Notes : - Mini-bug Occ 3 retry multi-image (division systématique sans heuristique x>1, produisait coordonnées aberrantes ~0.0004 si VLM retournait déjà du pourcentage) corrigé incidemment via centralisation. Pas de régression possible (résultat précédent aberrant par construction). - Occ 4 : bbox_2d strict 4-coords élargi à bbox_2d 2 ou 4 coords. Contrat sémantique "bounding box" respecté ; un point 2-coords interprété comme centre de bbox. Tests : 26 cas dans test_bbox_parser.py (tous formats × cascade + filtre formats= + validated). 121 PASS / 0 FAIL sur le périmètre refactor (5 fichiers ciblés). Net : -96 lignes dans resolve_engine.py, +120 lignes module + 250 lignes tests. refs DETTE-006 (étape 2/5 du fix smart_resize) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 15:30:25 +02:00
Dom	2e76b44ff3	feat(observability): log positif pré-check OCR pour traçabilité runtime Avant : succès silencieux (seul rejet loggé) Après : log INFO à chaque appel avec by_text, position, méthode, observed, is_valid, latence Permet de valider en runtime que le pré-check OCR tourne bien sur les résolutions resolved=True (cf commit `731b5bcae`). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 22:23:32 +02:00
Dom	731b5bcae2	fix(replay): réactivation pré-check OCR avec calibrage chirurgical - Flag RPA_ENABLE_TEXT_PRECHECK défaut true (vs false pendant prépa démo) - radius_px 200 → 280 (englobe textes longs type "Synthèse Urgences") - min_token_ratio 0.60 → 0.50 (tolère onglets fragmentés par OCR) - Commentaire historique restructuré avec procédure troubleshooting - Docstring synchronisée avec valeur effective Audit complet : docs/AUDIT_CONTROLES_DEBRANCHES_2026-05-08.md Réactive contrôle #3 sur 5 identifiés (les 4 autres restent désactivés pour aujourd'hui — décision chirurgicale 1 par 1). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-08 14:27:21 +02:00

1 2 3 4

166 Commits