rpa_vision_v3

Author	SHA1	Message	Date
Dom	d00fe7b00b	feat(health): gate vision + détection des modèles aveugles Détecte les modèles VLM/grounding « aveugles » (capabilities sans vision, ex. UI-TARS réimporté sans mmproj) pour éviter le HTTP 500 silencieux masqué par la cascade de grounding. - core/detection/model_health.py : has_vision_capability() (cache, fail-open) + smoke_check_models() - core/execution/input_handler.py : gate vision dans _grounding_ui_tars (skip propre vers niveau 3 si modèle aveugle, plus de 500 silencieux) - tests/unit/test_model_health.py : 6 tests (vision/aveugle/fail-open/cache/smoke) Incident 2026-06-08 : UI-TARS sans mmproj -> niveau 2 cascade en 500 silencieux, non détecté (hors chemin runtime démo + échec avalé par fallback + zéro test). NB : le smoke non bloquant au démarrage (api_stream.py startup) reste dans le WIP de la branche, mélangé au préflight non committé. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-08 11:51:18 +02:00
Dom	5b2afa3629	fix(p1w): make default VLM model DGX-safe (qwen2.5vl:7b-rpa) Sans env RPA_VLM_MODEL/VLM_MODEL, get_vlm_model() tombait sur le default gemma4:latest, qui peut etre absent du tunnel DGX (depull) -> 404 Ollama et echec de tout le pipeline VLM avant un test Lea humain. - core/detection/vlm_config.py : DEFAULT_VLM_MODEL gemma4:latest -> qwen2.5vl:7b-rpa (confirme present DGX, deja default reasoning + fallback bbox grounding). + DGX_SAFE_VLM_MODELS allow-list documentee. - tests/unit/test_vlm_default_dgx_safe.py : 5 tests (default != gemma4:latest, default in allow-list, no-env -> DGX-safe, env garde priorite). Logique de resolution inchangee, pas d'appel reseau a l'import. gemma4:latest reste accessible via env explicite. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-05 12:06:10 +02:00
Dom	0f122a512f	feat(p1y-alpha): add OpenAI-compatible LeaBench adapter (benchmark only) Adapter de benchmark isole (hors runtime Lea) ciblant un serveur /v1/chat/completions a support vision (vLLM/SGLang/TGI), pour comparer plus tard a Ollama via LeaBench. Ne controle jamais le desktop. - core/evaluation/openai_compat_lea_bench_adapter.py : payload data-URL image_url, parsing choices[0].message.content. Reutilise par import la logique prompt/parse/normalisation de ollama_lea_bench_adapter (zero refactor). - tools/lea_bench_openai_compat.py : wrapper CLI (--base-url defaut :8001). - tests/unit/test_openai_compat_lea_bench_adapter.py : 6 tests mockes HTTP (data URL, pas de fuite expectation/click_region, prediction valide, abstain safe sur HTTP!=200 et reponse malformee, JSONL rechargeable). Aucun runtime Lea modifie. Aucun service lance. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:49:53 +02:00
Dom	806cc04b82	feat(p1z): centralize V4 reasoning model resolution (DGX-safe) Remplace le default runtime dangereux `qwen2.5vl:7b` (absent du tunnel DGX -> 404) des chemins V4/reasoning par un helper central get_reasoning_model(). - core/detection/vlm_config.py : + get_reasoning_model() + DEFAULT_REASONING_MODEL (qwen2.5vl:7b-rpa). Ordre : RPA_REASONING_MODEL -> RPA_VLM_MODEL/VLM_MODEL -> default DGX-safe. Pas d'appel reseau (lazy, safe a l'import). - core/execution/input_handler.py, observe_reason_act.py (x3), core/cognition/vram_orchestrator.py : migration des 5 call-sites. - tests/unit/test_reasoning_model.py : 8 tests (default DGX-safe, ordre de resolution, non-regression wiring des 3 modules V4). Hors scope (signale lot P1.w) : DEFAULT_VLM_MODEL=gemma4:latest reste fallback de get_vlm_model(). Client gele non touche. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-04 16:23:10 +02:00
Dom	4dc7d840d6	feat(p1x): de-hardcode VLM models/endpoints to vlm_config (DGX-ready) Migre les call-sites VLM serveur vers la configuration centrale pour fonctionner sur DGX (tunnel Ollama 11434), où gemma4:* est absent et le port Docker 11435 est mort. - task_planner, replay_verifier, domain_context, ir_builder, resolve_engine (popup): modele -> vlm_config.get_vlm_model(), defaut 11435 -> 11434 (override GEMMA4_PORT legacy conserve) - resolve_engine (grounding bbox x2): nouvel helper vlm_config.get_bbox_grounding_model() (var dediee RPA_BBOX_GROUNDING_MODEL, fallback RPA_GROUNDING_MODEL puis qwen2.5vl:7b-rpa) -> desambiguise le conflit D5-v3b, bbox_2d + num_ctx 4096 preserves - safety_checks_provider: defaut -> get_vlm_model(), override RPA_SAFETY_CHECKS_LLM_MODEL preserve - ui_detector: default_factory + resolution lazy (corrige aussi un gel a l'import), pas d'appel reseau a l'import - field_extractor: property lazy via vlm_config TDD strict (RED->GREEN), 305 tests verts, tests mockes HTTP (zero dependance DGX reel), aucun alias Ollama. Hors perimetre (arbitrage Dom): client Lea agent_v1/executor.py (gele), chemin V4 observe_reason_act (RPA_REASONING_MODEL), core/config.py defaults. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-03 14:06:03 +02:00
Dom	5289f3de48	feat(p11): learn from offline cross-session matches	2026-06-02 17:46:15 +02:00
Dom	18ed6cb751	feat(vwb): add dashboard competence testing and health tools	2026-06-02 16:27:19 +02:00
Dom	d38f0b0f2f	feat(agent): add learn action flow and grounding guards	2026-06-02 16:24:10 +02:00
Dom	86b3c8f7e7	feat(p1): persist workflows and semantic learning artifacts	2026-06-02 16:20:38 +02:00
Dom	7a1a5cb6fd	fix(p0): secure agent revocation and R6 worker queue	2026-06-02 15:52:35 +02:00
Dom	335d576830	feat(dashboard): launch supervised competence tests	2026-06-01 12:09:09 +02:00
Dom	34527b5cc5	feat(lea): add dashboard competence promotion dry run	2026-05-29 21:48:00 +02:00
Dom	47377226f2	feat(vwb): harden supervised verdict evidence	2026-05-29 18:54:54 +02:00
Dom	aba849324a	feat(vwb): log supervised competence verdicts	2026-05-29 18:36:06 +02:00
Dom	794a248dae	feat(vwb): preview lea competence workflows	2026-05-29 18:13:36 +02:00
Dom	e66bc6d452	feat(vwb): execute wait for state	2026-05-29 17:22:35 +02:00
Dom	45b6da5e3f	feat(vwb): load palette from catalog	2026-05-29 17:09:47 +02:00
Dom	99f89317cb	feat(lea): substitute save menu gesture	2026-05-29 13:45:44 +02:00
Dom	a49f59b4d6	feat(competences): plan supervised replay tests	2026-05-29 11:38:12 +02:00
Dom	c1a144c673	feat(vwb): expose competence yaml catalog	2026-05-29 11:28:25 +02:00
Dom	e8a0fb0e42	feat(competences): extract batch candidates	2026-05-29 11:25:00 +02:00
Dom	4ba426c205	fix(replay): guard single in-flight dispatch Add a private in-flight helper for replay dispatch, block machine retargeting while an action is still pending on the previous session, and warn on duplicate in-flight entries for the same replay triplet. Freeze the Notepad runtime dialog success path and add integration coverage for single in-flight dispatch, watchdog late-report documentation, and the known concurrent-poll race as an xfail.	2026-05-25 11:00:59 +02:00
Dom	7bb8d543ab	feat(cognition): dataclasses Trace + SceneExpected + Precondition (Phase 2.1) Crée les 3 dataclasses du modèle Mandat/Protocoles/Scènes v0.3 dans core/cognition/, standalone (aucun branchement runtime), avec sérialisation JSON explicite et tests offline. Préparation des phases : - Phase 2.1 plan : objet Trace (mandate_id, intention_id, scene_id, affordance_signature, expected_retour, level_of_delegation) - Workpack A : SceneExpected (monitor_index, app_name, title_patterns, title_anti, window_rect_hint, scene_role, accepted_transitions, stability_ms) + helper matches_title() - Workpack B : Precondition (kind, window_title_must_contain/anti, critic_question, verify_timeout_ms) + PreconditionRecovery (max_attempts, on_recovery_fail, actions) Toutes les dataclasses sont frozen, immutables, avec to_dict/from_dict tolérants (champs vides/None -> instance vide). Validation au __post_init__ pour Precondition.kind et PreconditionRecovery.on_recovery_fail. Aucune dépendance runtime obligatoire : si l'objet n'est pas posé sur une action, fallback comportement actuel. Aucune modif executor / api_stream / replay_engine / grounding. Tests : 22/22 passent (sérialisation JSON, contrats from_dict tolérants, validation kinds, helpers matches_title/check_title, anti-intention). Tag rollback : rollback/pre-cognition-dataclasses-2026-05-25_0610	2026-05-25 06:08:18 +02:00
Dom	debd7b423c	feat(evaluation): add local Ollama LeaBench adapter	2026-05-24 21:58:06 +02:00
Dom	10136f0ee0	feat(agent): add standalone anchor-relative resolver	2026-05-24 21:54:39 +02:00
Dom	054279feb4	feat(evaluation): add LeaBench model prompt packs	2026-05-24 21:53:24 +02:00
Dom	ea1f57afb1	feat(evaluation): add LeaBench computer-use scorer	2026-05-24 21:21:17 +02:00
Dom	b1b32187ba	fix(agent): P0.6 guard human corrections	2026-05-24 21:07:12 +02:00
Dom	08701761e6	merge(R2): DialogResolver MVP P0 (worktree a86565d0)	2026-05-24 17:53:35 +02:00
Dom	84d2d4a667	feat(dialog): R2 MVP P0 — DialogResolver + catalogue 10 entrées (flag OFF default) - agent_v0/server_v1/core/dialog/ : catalogue compact + DialogResolver stateless (match titre + evidence, trichotomie stricte auto/pause/skip). - 10 entrées P0 : confirm-save-overwrite, notepad-unsaved-changes, windows-file-explorer (fallback replay 4c38dbb8), easily-save/overwrite/ confirm-action/clinical-warning, windows-uac, windows-hello-credui, edge-update. - Validateur déclaratif `system_modals_cannot_be_overridden` : rejette toute surcharge auto/skip sur modaux SYSTÈME (windows-/defender-). - Endpoint POST /api/v1/dialog/resolve derrière flag RPA_DIALOG_RESOLVER_ENABLED (OFF par défaut → 503). Aucun rebranchement côté agent_v1 (executor.py inchangé, P1 plus tard). - 25 tests pytest passants (19 unit + 6 intégration HTTP). Spec : docs/recherche/SPEC_POPUPS_CATALOGUE.md §2bis / §3. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:52:38 +02:00
Dom	1b4e64960b	feat(validator): R1 MVP P0 — OcrRoiChecker + orchestrator (flag OFF default) Package core/validation/ minimal : - result.py : Verdict, FailureCategory, ValidationResult - pixel_diff_checker.py : wrapper de ReplayVerifier.verify_action - ocr_roi_checker.py : ROI 80px autour du clic, détecte WRONG_APPLICATION via SUSPECT_TOKENS (edge/https/explorateur de fichiers/…) - orchestrator.py : Validator dispatch action_type → checkers + agrégation Wiring api_stream.py:3646 derrière RPA_VALIDATOR_V2_ENABLED (OFF par défaut). Si verdict ≠ COMPLETE, override report.success=False et expose failure_category dans result_entry. Zero régression flag OFF. Tests : - tests/unit/test_validator_v2.py : 13 tests (Checkers + Validator + sérialisation) - tests/integration/test_validator_step10.py : 2 tests reproduisant le bug replay_sess_4c38dbb8 / act_raw_6c1432b3 (clic Enregistrer fait basculer vers Explorateur de fichiers) — Validator retourne WRONG_APPLICATION Activation pour test live : RPA_VALIDATOR_V2_ENABLED=true Cf. docs/recherche/SPEC_VALIDATOR_MATRICE.md, AXE_B2_DEEP_VALIDATOR.md. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 17:52:06 +02:00
Dom	7df51d2c79	snapshot: WIP 5j replay reliability (B1 watchdog + dialog handlers + grounding drift) Snapshot avant correction du blocage relance Léa (3 incidents 24h: SSH refusé, polls morts ×2). Point de rollback stable. Contenu: - agent_v1/core/executor.py: 5 patchs dialog handling (saveas drift, close_tab hotkey fallback, confirm_save Unicode apostrophe, foreground dialog recontextualization, runtime_dialog in-loop) + helpers normalize_window_hint, requires_post_verify_window_transition - agent_v1/core/grounding.py: garde drift template fix (fallback_x/y plumbed) - server_v1/replay_watchdog.py (NEW): orphan watchdog B1, scan 10s timeout 30s - server_v1/api_stream.py: dispatched_action plumbing, watchdog lifespan, metrics endpoint - server_v1/replay_engine.py: _schedule_retry préserve original_action + dispatched_action - stream_processor.py: gardes _infer_tab_switch_target (no false switch_tab on save_as dialog open) + _attach_expected_window_before - tests/integration: test_replay_watchdog.py (8 cas), test_stream_processor.py - tests/unit: test_executor_verify_window_guard.py (start_button, close_tab, runtime_dialog, post_verify, transition fallbacks) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 16:48:37 +02:00
Dom	9872f4510c	feat(t2a): build_dpi_enriched - extraction déterministe horaires + classifications cliniques Préprocesseur Python qui injecte un bloc FAITS_CALCULÉS en tête du DPI avant l'appel LLM, pour neutraliser l'hallucination de durée (bug "23h" sur cas MOREL, confusion avec "depuis 23h" de l'Observ. IDE Urg). Extrait depuis le bandeau Easily Assure et la Synthèse Urgences : - âge (dateutil.relativedelta) - date admission / sortie + durée passage (format humain + décimal) - CCMU / GEMSA libellé complet (parser multi-ligne) - priorité IAO, mode de venue / médicalisation / mode d'entrée - diagnostic principal - decision_terrain + orientation_terrain (metadata only, jamais injectés dans le prompt pour ne pas biaiser le LLM) Retour tuple (dpi_enriched, metadata) pour permettre les garde-fous serveur Python ↔ LLM au commit 2. Robustesse : - re.search 1re occurrence + WARNING si bandeau divergent multi-occurrences - Synthèse Urgences priorité sur bandeau pour dates - Valeur exigée sur même ligne que label (évite capture de section title) - Cas négatif (horaires absents) → "NON CALCULABLE" + parsing_warnings - Jamais de crash, retour tuple toujours valide Tests : 4/4 verts (golden MOREL string + metadata, négatif sortie absente, DPI vide). Pas de régression sur tests/integration/test_t2a_extract.py. Brief complet : docs/handoffs/2026-05-12_brief_S1_build_dpi_enriched.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-12 18:49:49 +02:00
Dom	bfbf0f9c3e	refactor(grounding): centralise parser bbox_2d Avant : 4 occurrences de parsing en cascade dans resolve_engine.py (L840-885, L903-915, L2569-2580, ~110 lignes au total). Après : centralisation dans core/grounding/bbox_parser.py avec paramètre formats= permettant de filtrer les formats reconnus selon le contrat sémantique de chaque site d'appel. Préservation des contrats sémantiques (strict no-op) : - Occ 1+2 (cascade principale) : tous formats (par défaut) - Occ 3 (retry multi-image) : formats={"xy_json", "raw_array"} pour respecter le prompt qui impose {"x": NNN, "y": NNN} in pixels - Occ 4 (_locate_popup_button) : formats={"bbox_2d"} pour respecter le prompt qui demande "bounding box" Notes : - Mini-bug Occ 3 retry multi-image (division systématique sans heuristique x>1, produisait coordonnées aberrantes ~0.0004 si VLM retournait déjà du pourcentage) corrigé incidemment via centralisation. Pas de régression possible (résultat précédent aberrant par construction). - Occ 4 : bbox_2d strict 4-coords élargi à bbox_2d 2 ou 4 coords. Contrat sémantique "bounding box" respecté ; un point 2-coords interprété comme centre de bbox. Tests : 26 cas dans test_bbox_parser.py (tous formats × cascade + filtre formats= + validated). 121 PASS / 0 FAIL sur le périmètre refactor (5 fichiers ciblés). Net : -96 lignes dans resolve_engine.py, +120 lignes module + 250 lignes tests. refs DETTE-006 (étape 2/5 du fix smart_resize) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 15:30:25 +02:00
Dom	0d7bcd18ac	feat(grounding): module smart_resize officiel Qwen3-VL Module pur core/grounding/smart_resize.py implémentant la formule smart_resize officielle (transformers.qwen2_vl.image_processing_qwen2_vl, utilisée par Qwen3VLProcessor pour les images via wrap Qwen2VLImageProcessor). Helpers exposés : _round_by_factor, _floor_by_factor, _ceil_by_factor. Constantes : FACTOR_DEFAULT=28, MIN_PIXELS_DEFAULT=3136, MAX_PIXELS_DEFAULT=1_003_520, MAX_RATIO_DEFAULT=200. Tests : tests/unit/test_smart_resize.py — 32 cas, 100% coverage sur le module (mesure via coverage API directe, pytest-cov bloqué par bug cv2 préexistant tracé dans DETTE-011). refs DETTE-006 (étape 1/5 du fix smart_resize) refs DETTE-007 (création de la 3ème implémentation, à unifier post-démo) refs DETTE-010 (vérif preprocessor_config.json checkpoint Qwen3-VL-8B bloquante avant Étape 2) refs DETTE-011 (bug cv2 contourné pour mesure coverage) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-09 12:42:47 +02:00
Dom	7c6945171e	feat(qw4): SafetyChecksProvider hybride déclaratif + LLM contextuel build_pause_payload(action, state, last_screenshot) → PausePayload - Toujours inclure les checks déclaratifs (workflow.parameters.safety_checks) - Si safety_level=medical_critical ET RPA_SAFETY_CHECKS_LLM_ENABLED=1 : appel LLM (medgemma:4b par défaut) en format=json strict, timeout 5s, max 3 checks ajoutés (configurables via env vars) - Tous les chemins d'erreur (timeout, HTTP, JSON parse, exception) loggent et retournent [] (fallback safe : déclaratifs seuls) Tests : 7 cas (déclaratif seul, hybride OK, timeout, LLM invalide, kill-switch, max_checks, déclaratif vide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:29:38 +02:00
Dom	2a51a844b9	feat(qw2): LoopDetector composite (screen_static + action_repeat + retry) Module isolé, 3 signaux indépendants : - screen_static : CLIP similarity > 0.99 sur N captures consécutives - action_repeat : N actions identiques (type+coords) - retry_threshold : retried_actions >= seuil Premier signal positif → LoopVerdict.detected=True (caller responsable de la bascule en paused_need_help). Configurable env vars : RPA_LOOP_DETECTOR_ENABLED (kill-switch), RPA_LOOP_SCREEN_STATIC_N/THRESHOLD, RPA_LOOP_ACTION_REPEAT_N, RPA_LOOP_RETRY_THRESHOLD. Tests : 8 cas (chaque signal isolé, kill-switch, embedder absent, exception). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:09:43 +02:00
Dom	6582a69d31	feat(qw1): MonitorRouter — résolution de l'écran cible pour le replay Module isolé qui choisit l'écran cible avec stratégie en cascade : 1. action.monitor_index (session source) → cible explicite 2. session.last_focused_monitor → fallback focus actif 3. composite (offset 0,0) → backward compat (comportement actuel) Backward 100% : actions sans monitor_index → fallback composite identique au comportement mss.monitors[0] actuel. Tests : 4 cas (cible OK, fallback focus, fallback composite, index invalide). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:50:22 +02:00
Dom	9da589c8c2	feat(grounding): pipeline centralisé + serveur UI-TARS transformers + nettoyage code mort Architecture grounding complète : - core/grounding/server.py : serveur FastAPI (port 8200) avec UI-TARS-1.5-7B en 4-bit NF4 Process séparé avec son propre contexte CUDA (résout le crash Flask/CUDA) - core/grounding/pipeline.py : orchestrateur cascade template→OCR→UI-TARS→static - core/grounding/template_matcher.py : TemplateMatcher centralisé (remplace 5 copies) - core/grounding/ui_tars_grounder.py : client HTTP vers le serveur de grounding - core/grounding/target.py : GroundingTarget + GroundingResult ORA modifié : - _act_click() : capture unique de l'écran envoyée au serveur de grounding - Pre-check VLM skippé pour ui_tars (redondant, et Ollama n'a plus de VRAM) - verify_level='none' par défaut (vérification titre OCR prévue en Phase 2) - Détection réponses négatives UI-TARS ("I don't see it" → fallback OCR) Nettoyage : - 9 fichiers morts archivés dans _archive/ (~6300 lignes supprimées) - 21 tests ajoutés pour TemplateMatcher Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-25 17:48:18 +02:00
Dom	00134963e5	test: 16 tests unitaires pour la boucle ORA Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 9s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Tests ORALoop init, Decision, reason_workflow_step (click, type, hotkey, wait, passthrough), verify (none, wait, done), run_workflow (empty, too_many), run_instruction (méthodes existent). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 10:43:28 +02:00
Dom	447fbb2c6e	chore: sauvegarde complète avant factorisation executor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Point de sauvegarde incluant les fichiers non committés des sessions précédentes (systemd, docs, agents, GPU manager). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:03:44 +02:00
Dom	309dfd5287	feat: process mining BPMN, détection changement écran pHash, OCR docTR Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Process Mining (core/analytics/process_mining_bridge.py) : - Bridge PM4Py : conversion sessions Shadow → event log → BPMN XML + PNG - KPIs automatiques : durée, variantes, goulots, distribution par app - Support sessions JSONL brutes et workflows core JSON - 42 tests (dont 1 sur données réelles) Détection changement d'écran (core/analytics/screen_change_detector.py) : - pHash (imagehash) : ~16ms par screenshot, seuils SAME/MINOR/MAJOR - 8 tests sur screenshots réels OCR docTR dans execute_extract_text : - docTR par défaut pour lecture simple (rapide, CPU) - Ollama VLM en fallback ou sur demande explicite (mode "vlm"/"ai") - Dual-mode adaptatif selon extraction_mode Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 13:07:56 +02:00
Dom	4f61741420	feat: journée 17 avril — tests E2E validés, dashboard fleet+audit, VWB bridge, cleaner C2 Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Pipeline E2E complet validé : Capture VM → streaming → serveur → cleaner → replay → audit trail Mode apprentissage supervisé fonctionne (Léa échoue → humain → reprise) Dashboard : - Cleanup 14→10 onglets (RCE supprimée) - Fleet : enregistrer/révoquer agents, tokens, ZIP pré-configuré téléchargeable - Audit trail MVP (/audit) : filtres, tableau, export CSV, conformité AI Act/RGPD - Formulaire Fleet simplifié (nom + email, machine_id auto) VWB bridge Léa→VWB : - Compound décomposés en N steps (saisie + raccourci visibles) - Layout serpentin 3 colonnes (plus colonne verticale) - Badge OS 🪟/🐧, filtre OS retiré (admin Linux voit Windows) - Fix import SQLite readonly Cleaner intelligent : - Descriptions lisibles (UIA/C2) + détection doublons - Logique C2 : UIElement identifié = jamais parasite - Patterns parasites resserrés - Message Léa : "Je n'y arrive pas, montrez-moi comment faire" Config agent (INC-1 à INC-7) : - SERVER_URL + SERVER_BASE unifiés - RPA_OLLAMA_HOST séparé - allow_redirects=False sur POST - Middleware réécriture URL serveur CI Gitea : fix token + Flask-SocketIO + ruff propre Fleet endpoints : /agents/enroll\|uninstall\|fleet + agent_registry SQLite Backup : script quotidien workflows.db + audit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-17 17:46:40 +02:00
Dom	7f2bc6fe97	feat(graph): enrichissement visuel des workflows (C2) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details GraphBuilder construit maintenant des ScreenState enrichis (ui_elements + detected_text) au lieu de stubs vides, et associe les clics aux UIElement par proximité spatiale. Détails : - __init__ accepte ui_detector, screen_analyzer, enable_ui_enrichment, element_proximity_max_px (+ lazy resolver via singleton C1) - _create_screen_states délègue à ScreenAnalyzer.analyze() — remplace l'appel à _extract_text() qui n'existait plus depuis le Lot C (bug silencieux : OCR cassé en prod depuis ce jour, caught except) - _find_clicked_element : bbox contenant strict + fallback proximité ≤50px, préfère le plus petit bbox (form vs button) - _build_click_target_spec : TargetSpec(by_role, by_text, selection_policy="by_similarity") avec ancres dans context_hints (anchor_element_id, anchor_bbox, anchor_center) - _build_edges propage le ScreenState source aux builders d'action - WorkflowPipeline passe ui_detector + enable_ui_enrichment au builder Impact : matching prod 3-5x plus précis, TargetSpec ne sont plus des "unknown_element" génériques, UIConstraint.required_roles se remplit correctement via _extract_common_ui_elements (qui marchait depuis toujours mais sur des state.ui_elements vides). Tests e2e migrés vers enable_ui_enrichment=False (2.9s vs 67s) — ils valident le pipeline DBSCAN/edges, pas la détection UI réelle. 15 nouveaux tests, 178 tests passants au total (incluant Lots A-E). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 22:02:30 +02:00
Dom	78ee962918	feat(matching): match_current_state_from_state consomme enrichi (Lot E) Nouvelle méthode match_current_state_from_state(screen_state, workflow_id) qui utilise directement le ScreenState enrichi (window_title, detected_text, ui_elements) fourni par ExecutionLoop au lieu de reconstruire un stub ScreenState("Unknown", ui_elements=[], ...). Préfère HierarchicalMatcher si workflow chargeable, fallback FAISS sinon. L'ancienne API match_current_state(screenshot_path, workflow_id) est convertie en wrapper : appelle ScreenAnalyzer.analyze() puis délègue. Rétrocompat préservée. ExecutionLoop._execute_step utilise la nouvelle méthode -> plus de double analyze() dans le chemin d'exécution (économie latence). Premier vrai matching context-aware. 11 nouveaux tests + 2 tests integration loop. 172 tests non-régression verts. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:04 +02:00
Dom	c8a3618e27	feat(cache): ScreenStateCache clé composite context-aware (Lot D) Avant : clé = phash seul -> deux contextes différents avec même screenshot partageaient la même entrée cache -> collisions silencieuses. Après : clé composite {phash}\|{md5(ctx)[:16]} avec ctx = - window_title - app_name - enable_ocr - enable_ui_detection - workflow_id (isolation inter-workflows) get_or_compute() kwargs-only. TTL 2s et éviction LRU inchangés. invalidate_if_changed() continue de comparer uniquement les phash. ExecutionLoop propage tout le contexte au cache. 8 nouveaux tests prouvant : - même image + window différent = miss - même image + app différent = miss - même image + flags différents = miss - même image + workflow_id différent = miss - même image + même contexte = hit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:51 +02:00
Dom	9ca277a63f	refactor(pipeline): ScreenAnalyzer thread-safe et isolé (Lot C) Retrait de l'état global toxique : - analyze() : kwargs-only enable_ocr, enable_ui_detection, session_id - Ne mute JAMAIS self pour les flags (variables locales + branches) - _resolve_ocr_instance() / _resolve_ui_detector_instance() : lecture seule - _init_lock par instance pour lazy init concurrent safe - session_id par appel, plus via mutation singleton Avant : ExecutionLoop mutait analyzer._ocr, _ui_detector, _ocr_initialized, _ui_detector_initialized pour désactiver OCR/UI. Deux loops partageant le singleton se polluaient mutuellement. Après : deux loops partageant l'analyzer sont complètement isolés. Preuve par TestAnalyzerIsolationBetweenLoops (3 tests). Singleton get_screen_analyzer() préservé — garde uniquement les ressources lourdes, plus de contexte d'exécution. 9 nouveaux tests (3 isolation + 6 kwargs-only/lazy-init). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:41 +02:00
Dom	8c7b6e5696	feat(scoring): EdgeScorer utilise la vraie source_similarity (Lot B) Avant : source_similarity=1.0 hardcodé dans _check_preconditions -> la contrainte EdgeConstraints.min_source_similarity était silencieusement désactivée. Un edge passait toujours. Après : propagation ExecutionLoop -> workflow_pipeline -> EdgeScorer - select_best/rank/score_edge/_check_preconditions acceptent source_similarity: float (kwargs-only) - get_next_action() le propage - execution_loop passe la confidence issue de match_current_state La contrainte min_source_similarity est opérationnelle pour la première fois. Preuve concrète par test_min_source_similarity_fail et test_low_similarity_blocks_edge (edge rejeté si sim < seuil). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:28 +02:00
Dom	af4ffa189a	feat(analytics): normalise API + contrat explicite get_next_action (Lot A) Contrat get_next_action() — suppression du None ambigu : {"status": "selected", "edge": ..., ...} {"status": "terminal"} {"status": "blocked", "reason": "no_valid_edge" \| ...} ExecutionLoop dispatche proprement : blocked -> PAUSED + _pause_requested, terminal -> succès légitime. Rétrocompat défensive (None legacy -> blocked). Analytics API normalisée (kwargs-only) : on_execution_complete(duration_ms, status, steps_total\|completed\|failed) on_step_complete(duration_ms, ...) on_recovery_attempt(duration_ms, ...) Découverte critique : les anciens appels utilisaient des méthodes et champs inexistants (ExecutionMetrics.duration, metrics_collector.record_execution). Le code n'avait jamais tourné au runtime — zéro analytics remontée. L'exception était avalée par le try/except englobant. 58 tests (18 analytics + 11 contrat + 20 ExecutionLoop + 12 edge_scorer non-régression). Migration complète, pas de pont legacy. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:19 +02:00
Dom	36737cfe9d	feat(security): eval()→AST parseur + pickle→JSON+HMAC signé Vulnérabilité 1 — eval() dans DAG executor : - Nouveau module safe_condition_evaluator.py - Parseur AST avec whitelist (Constants, Names, Compare, BoolOp, BinOp) - Rejet explicite Call/Lambda/Import/__dunder__/walrus/comprehensions - Expression non sûre → logged ERROR + évaluée à False (pas de crash) - 31 tests (12 valides, 17 malveillantes rejetées, 2 intégration) Vulnérabilité 2 — 3× pickle.load() non sécurisés : - Nouveau module signed_serializer.py (JSON+HMAC-SHA256) - Format : RPA_SIGNED_V1\\n + JSON(hmac + payload base64) - Migration automatique transparente au premier chargement - Fallback pickle avec WARNING (désactivable RPA_ALLOW_PICKLE_FALLBACK=0) - Remplacement dans faiss_manager, visual_embedding_manager, visual_persistence_manager - 13 tests Clé signature : RPA_SIGNING_KEY (fallback TOKEN_SECRET_KEY puis hostname-derived). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:17 +02:00

1 2

75 Commits