rpa_vision_v3

Author	SHA1	Message	Date
Dom	4ce9c47f45	fix(ORA): logs stdout + vérification pHash tolérante pour clics Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Logs : forcer le handler stdout pour que les logs ORA apparaissent dans nohup (logger.info n'écrivait nulle part). Vérification : un clic avec confiance >= 0.7 est accepté même si l'écran ne change pas (pHash same). Un clic sur un champ de saisie ne modifie quasi pas l'écran mais est légitime. Changement mineur toujours accepté (plus de condition confiance > 0.9). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 15:04:13 +02:00
Dom	9d87ed64c5	fix: corrections audit qualité — stop/pause ORA + nettoyage debug Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CRITIQUE : ajout should_continue callback dans ORALoop pour supporter les boutons Stop/Pause du frontend en mode verified et instruction. HAUTE : suppression sys.stdout.write de debug, logger.warning→debug dans _grounding_ocr. BASSE : suppression import mort 'field' dans observe_reason_act.py. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 11:17:20 +02:00
Dom	0ec5e2a25b	feat: instructions en langage naturel via boucle ORA Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 11s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details reason_instruction() : le VLM regarde l'écran, décide la prochaine action atomique (click/type/hotkey/scroll/done), retourne un Decision avec expected_after pour la vérification. run_instruction() : boucle ORA complète pour instructions texte. CognitiveContext mis à jour à chaque étape (objectif, historique, faits appris, confiance). POST /api/v3/execute/instruction : endpoint API pour lancer une instruction en langage naturel. Thread daemon, polling du résultat via GET /api/v3/execute/instruction/result. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 09:09:53 +02:00
Dom	0c5fffe951	feat: boucle ORA (observe→raisonne→agit) avec vérification post-action Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Nouveau module core/execution/observe_reason_act.py (794 lignes) : - ORALoop : boucle unifiée pour workflow VWB et instructions - observe() : capture écran + pHash + titre fenêtre - reason_workflow_step() : mappe step VWB → Decision (sans VLM) - act() : template matching → find_element → pyautogui - verify() : Level 1 pHash + Level 2 VLM conditionnel - run_workflow() : boucle complète avec retries et callbacks Nouveau mode execution_mode='verified' dans execute.py : - run_workflow_verified() utilise ORALoop - Modes basic/intelligent/debug inchangés (zéro risque) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 09:02:54 +02:00
Dom	74ee0dadee	perf: pré-chargement docTR au démarrage + nettoyage debug logs Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details docTR se chargeait au premier appel OCR (~30s). Maintenant pré-chargé au démarrage du backend → premier clic rapide. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 17:25:35 +02:00
Dom	0b452f975a	fix: pénaliser matchs OCR partiels trop courts (demo dans CR_patient_demo) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:49:22 +02:00
Dom	6ab385d671	fix(grounding): OCR collecte TOUS les matchs + choisit le plus proche de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Avant : OCR retournait le premier match → cliquait sur la barre de titre ("CR_patient_demo" dans le path) au lieu du fichier dans la liste. Après : collecte tous les matchs, choisit le plus proche de la position originale de l'ancre (anchor_bbox). Si pas de bbox, prend le plus central. Élimine les clics sur les barres de titre, breadcrumbs, menus. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:40:15 +02:00
Dom	c50adab3a1	fix: aligner capture monitors[0] partout (cause de la régression) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details La capture VWB utilisait monitors[0] (composite) mais l'exécution utilisait monitors[1] (premier écran). Images incompatibles → CLIP retournait 0.00 sur un écran identique. Tous les fichiers alignés sur monitors[0]. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:52:13 +02:00
Dom	203e5cc6c1	fix(grounding): désactiver orchestrateur VRAM pendant exécution + qwen2.5vl:3b pour description Some checks failed security-audit / Bandit (scan statique) (push) Successful in 16s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details L'orchestrateur VRAM redémarrait Ollama en pleine exécution → timeout. Désactivé pendant le workflow. L'orchestrateur reste disponible pour bascule manuelle avant/après. Description ancre via qwen2.5vl:3b (3 Go) au lieu de 7b — tient en VRAM sans décharger CLIP ni RF-DETR. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:16:27 +02:00
Dom	d1b556b6cd	fix(grounding): supprimer SeeClick cassé + log description ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details SeeClick supprimé : modèle HF incompatible (QWenConfig non reconnu), crashait à chaque exécution et polluait les logs. Remplacé par UI-TARS via la chaîne de grounding. Log warning visible quand la description VLM de l'ancre échoue (pour diagnostiquer les problèmes de VRAM). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:05:29 +02:00
Dom	729cd67743	feat(grounding): description VLM de l'ancre quand le label est vide Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand le target_text est vide ou identique au type d'action (click_anchor, double_click_anchor...), le VLM décrit l'image de l'ancre en 5 mots ("folder icon named Demo"). Cette description est ensuite passée à UI-TARS pour le grounding ("click on folder icon named Demo") et à l'OCR pour la recherche. Chaîne complète : VLM décrit → OCR cherche → UI-TARS grounding → VLM raisonne. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:44:19 +02:00
Dom	73ddcdb29d	feat: chaîne de grounding 3 niveaux + refonte capture écran Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Grounding en cascade quand CLIP/template échouent : 1. OCR (docTR) → cherche le texte exact sur l'écran (~1s) 2. UI-TARS grounding → "click on X" → coordonnées (~3s, 94% ScreenSpot) 3. VLM reasoning → raisonnement complet + confirmation OCR (~10s) find_element_on_screen() dans input_handler.py (partagé VWB + Léa). Câblé dans find_and_click() et execute_action() comme fallback. Refonte capture écran : - mss.monitors[0] (composite) pour capturer la VM en plein écran - FullscreenSelector réécrit : overlay via getBoundingClientRect() - Bboxes et sélection alignées avec l'image (calcul JS, pas CSS) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:31:38 +02:00
Dom	5da4581e76	feat(cognition): orchestrateur VRAM + VLM 7b par défaut Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details VRAMOrchestrator : bascule automatique entre modes SHADOW et REPLAY. - SHADOW : streaming server + agent_chat actifs - REPLAY : VLM qwen2.5vl:7b chargé, services non-essentiels stoppés vlm_reason_about_screen() appelle ensure_reasoning_ready() avant chaque raisonnement — libère la VRAM si nécessaire. Benchmark : qwen2.5vl:7b en 10s (warm) vs 44s quand VRAM saturée. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 22:13:29 +02:00
Dom	cbe8dc95d2	feat(cognition): timing + écran attendu + auto-apprentissage Shadow + VLM qwen2.5vl Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Mémoire de travail enrichie : - Timing par étape (durée, moyenne, alerte si lent) - Écran attendu vs observation réelle - Contexte VLM étendu VLM reasoning : default qwen2.5vl:3b (gemma4 ne supporte pas vision) Auto-apprentissage Shadow : - stream_processor apprend les dialogues automatiquement - Clic utilisateur après dialogue → pattern mémorisé - Sauvegardé dans data/learned_patterns.json GUI-R1 : 10 patterns additionnels extraits du dataset Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:52:45 +02:00
Dom	04a14a56b2	feat(cognition): mémoire de travail — Léa sait où elle en est Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details CognitiveContext : bloc-notes interne réinjecté à chaque décision. - objective : ce que Léa essaie de faire - current_step : progression dans le plan - action_history : les N dernières actions (succès/échec) - learned_facts : faits appris pendant l'exécution - confidence : auto-évaluation (baisse sur échec) - needs_help : demande d'aide à l'humain - to_prompt_context() : génère le texte pour le VLM Module standalone, pas encore câblé dans l'executor. Testé sur scénario de facturation OSIRIS. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:41:10 +02:00
Dom	2290f1846b	feat(cognition): raisonnement VLM quand les réflexes ne suffisent pas Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details vlm_reason_about_screen() : capture l'écran, envoie au VLM local (gemma4/Ollama) avec l'objectif et le contexte, retourne une action en JSON (click/type/wait/nothing + target + reasoning). Chaîne de décision : 1. Réflexes (UIPatternLibrary) → instantané 2. OCR bouton (docTR) → rapide 3. VLM reasoning (Ollama) → intelligent, ~2-5s Le VLM intervient UNIQUEMENT quand 1 et 2 échouent — pas de latence ajoutée quand les réflexes suffisent. UIPatternLibrary enrichie : charge builtin + GUI-R1 + learned patterns. save_learned_pattern() persiste les patterns appris par Shadow. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:37:03 +02:00
Dom	c57b40ae1d	feat: CLIP auto-GPU si >1.5 Go VRAM libre + index FAISS IVF 11.5x plus rapide Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CLIP embedder : auto-détection GPU avec vérification VRAM disponible. Si >1.5 Go libre → CUDA, sinon → CPU. Évite les OOM quand Ollama utilise déjà la VRAM. FAISS : migration Flat → IVF (116 clusters, nprobe=8). Benchmark : 0.46ms → 0.04ms par recherche (11.5x). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:27:01 +02:00
Dom	bc21b27da7	fix(dashboard): diagrammes BPMN/DFG grande taille (DPI 150, layout vertical) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Les images générées par PM4Py étaient trop petites et illisibles. - DPI 150, taille 40x20 pouces, layout vertical (TB) - La modale plein écran permet le défilement (scroll) - Fallback sur pm4py.save_vis si le rendu Graphviz échoue Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 18:29:49 +02:00
Dom	6c7f88c05d	refactor: factorisation input_handler partagé + page cartographie processus Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details core/execution/input_handler.py (NOUVEAU) : - safe_type_text() : setxkbmap fr + xdotool, partagé entre les 2 executors - check_screen_for_patterns() : détection dialogues UI via OCR - handle_detected_pattern() : clic bouton par OCR (mot exact, le plus bas) - post_execution_cleanup() : vérification post-workflow VWB executor : suppression du code dupliqué, alias vers input_handler Core executor : pyautogui.write() remplacé par safe_type_text() Page dashboard "Cartographie des processus" : - GET /process-mining : vue analyse des flux de travail - POST /api/process-mining/discover : génère BPMN + indicateurs - 4 cartes indicateurs, diagramme, points d'attention, variantes - Dark theme, français, zéro jargon technique - Onglet ajouté dans la navigation Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:08:37 +02:00
Dom	447fbb2c6e	chore: sauvegarde complète avant factorisation executor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Point de sauvegarde incluant les fichiers non committés des sessions précédentes (systemd, docs, agents, GPU manager). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:03:44 +02:00
Dom	623be15bfe	fix(knowledge): triggers courts en mot entier + cookies trigger enrichi Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 12s Details tests / Tests unitaires (sans GPU) (push) Failing after 12s Details tests / Tests sécurité (critique) (push) Has been skipped Details Les triggers ≤3 chars (ok, no) utilisent maintenant des frontières de mots (\b) pour éviter les faux positifs (ok dans cookies). Trigger "utilise des cookies" ajouté pour le pattern cookie_accept. 7/7 patterns validés en test terrain simulé. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 15:45:58 +02:00
Dom	ffd97ae9a5	feat(knowledge): détection et gestion automatique des dialogues UI Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 12s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details UIPatternLibrary câblée dans l'executor et le stream processor. Pendant un wait_for_anchor, Léa surveille l'écran toutes les secondes : 1. OCR plein écran (docTR) 2. Pattern matching (dialogues Save, OK, Cancel, cookies...) 3. OCR ciblé pour trouver le bouton par son texte réel 4. Clic sur le match le plus bas (bouton, pas titre) Fix : seuil ratio supprimé (trigger trouvé = match, quelle que soit la longueur du texte OCR). Matching strict mot exact ≥3 chars (évite les faux positifs sur lettres isolées). Fallback recherche partielle pour les lettres soulignées (E_nregistrer). Plus aucune coordonnée hardcodée — 100% vision. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 11:06:17 +02:00
Dom	af4eae28b9	feat(knowledge): base de connaissances UI — réflexes natifs pour Léa Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details UIPatternLibrary : 16 patterns builtin (dialogues, menus, formulaires, popups, raccourcis) qui donnent à Léa des réflexes immédiats. Quand Léa reconnaît "Voulez-vous enregistrer ?" elle sait cliquer sur "Enregistrer" sans apprentissage préalable. - core/knowledge/ui_patterns.py : bibliothèque avec find_pattern(), get_dialog_handler(), add_pattern() pour patterns appris - Métadonnées GUI-R1 (3K exemples) extraites dans data/ (gitignored) Phase 1 du plan "connaissance native de l'environnement". Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-19 10:44:45 +02:00
Dom	309dfd5287	feat: process mining BPMN, détection changement écran pHash, OCR docTR Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Process Mining (core/analytics/process_mining_bridge.py) : - Bridge PM4Py : conversion sessions Shadow → event log → BPMN XML + PNG - KPIs automatiques : durée, variantes, goulots, distribution par app - Support sessions JSONL brutes et workflows core JSON - 42 tests (dont 1 sur données réelles) Détection changement d'écran (core/analytics/screen_change_detector.py) : - pHash (imagehash) : ~16ms par screenshot, seuils SAME/MINOR/MAJOR - 8 tests sur screenshots réels OCR docTR dans execute_extract_text : - docTR par défaut pour lecture simple (rapide, CPU) - Ollama VLM en fallback ou sur demande explicite (mode "vlm"/"ai") - Dual-mode adaptatif selon extraction_mode Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 13:07:56 +02:00
Dom	7f2bc6fe97	feat(graph): enrichissement visuel des workflows (C2) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details GraphBuilder construit maintenant des ScreenState enrichis (ui_elements + detected_text) au lieu de stubs vides, et associe les clics aux UIElement par proximité spatiale. Détails : - __init__ accepte ui_detector, screen_analyzer, enable_ui_enrichment, element_proximity_max_px (+ lazy resolver via singleton C1) - _create_screen_states délègue à ScreenAnalyzer.analyze() — remplace l'appel à _extract_text() qui n'existait plus depuis le Lot C (bug silencieux : OCR cassé en prod depuis ce jour, caught except) - _find_clicked_element : bbox contenant strict + fallback proximité ≤50px, préfère le plus petit bbox (form vs button) - _build_click_target_spec : TargetSpec(by_role, by_text, selection_policy="by_similarity") avec ancres dans context_hints (anchor_element_id, anchor_bbox, anchor_center) - _build_edges propage le ScreenState source aux builders d'action - WorkflowPipeline passe ui_detector + enable_ui_enrichment au builder Impact : matching prod 3-5x plus précis, TargetSpec ne sont plus des "unknown_element" génériques, UIConstraint.required_roles se remplit correctement via _extract_common_ui_elements (qui marchait depuis toujours mais sur des state.ui_elements vides). Tests e2e migrés vers enable_ui_enrichment=False (2.9s vs 67s) — ils valident le pipeline DBSCAN/edges, pas la détection UI réelle. 15 nouveaux tests, 178 tests passants au total (incluant Lots A-E). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 22:02:30 +02:00
Dom	53d29d9b24	fix(lint): ruff passe propre — 2 vrais bugs + suppression fichier corrompu Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Vrais bugs corrigés : - core/execution/target_resolver.py : suppression de 5 lignes de dead code après un return (vestige de refacto incomplète référençant des params jamais assignés à self : similarity_threshold, use_spatial_fallback) - agent_v0/agent_v1/core/executor.py:2180 : variable `prefill` référencée mais jamais définie. Initialisation explicite ajoutée en amont (conditionnée sur _is_thinking_popup, cohérent avec l'append du message) Fichier supprimé : - core/security/input_validator_new.py : contenu corrompu (texte inversé, artefact de copier-coller), jamais importé nulle part, 550 erreurs ruff à lui seul Workflow CI : - Exclusions ajoutées pour dossiers legacy connus cassés : - agent_v0/deploy/windows_client/ (clone obsolète) - tests/property/ (cf. MEMORY.md — imports cassés) - tests/integration/test_visual_rpa_checkpoint.py (VisualMetadata inexistant, déjà documenté) Résultat : "ruff All checks passed!" sur core/ agent_v0/ tests/ (avec E9,F63,F7,F82 — syntax + undefined critiques). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 19:01:11 +02:00
Dom	78ee962918	feat(matching): match_current_state_from_state consomme enrichi (Lot E) Nouvelle méthode match_current_state_from_state(screen_state, workflow_id) qui utilise directement le ScreenState enrichi (window_title, detected_text, ui_elements) fourni par ExecutionLoop au lieu de reconstruire un stub ScreenState("Unknown", ui_elements=[], ...). Préfère HierarchicalMatcher si workflow chargeable, fallback FAISS sinon. L'ancienne API match_current_state(screenshot_path, workflow_id) est convertie en wrapper : appelle ScreenAnalyzer.analyze() puis délègue. Rétrocompat préservée. ExecutionLoop._execute_step utilise la nouvelle méthode -> plus de double analyze() dans le chemin d'exécution (économie latence). Premier vrai matching context-aware. 11 nouveaux tests + 2 tests integration loop. 172 tests non-régression verts. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:04 +02:00
Dom	c8a3618e27	feat(cache): ScreenStateCache clé composite context-aware (Lot D) Avant : clé = phash seul -> deux contextes différents avec même screenshot partageaient la même entrée cache -> collisions silencieuses. Après : clé composite {phash}\|{md5(ctx)[:16]} avec ctx = - window_title - app_name - enable_ocr - enable_ui_detection - workflow_id (isolation inter-workflows) get_or_compute() kwargs-only. TTL 2s et éviction LRU inchangés. invalidate_if_changed() continue de comparer uniquement les phash. ExecutionLoop propage tout le contexte au cache. 8 nouveaux tests prouvant : - même image + window différent = miss - même image + app différent = miss - même image + flags différents = miss - même image + workflow_id différent = miss - même image + même contexte = hit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:51 +02:00
Dom	9ca277a63f	refactor(pipeline): ScreenAnalyzer thread-safe et isolé (Lot C) Retrait de l'état global toxique : - analyze() : kwargs-only enable_ocr, enable_ui_detection, session_id - Ne mute JAMAIS self pour les flags (variables locales + branches) - _resolve_ocr_instance() / _resolve_ui_detector_instance() : lecture seule - _init_lock par instance pour lazy init concurrent safe - session_id par appel, plus via mutation singleton Avant : ExecutionLoop mutait analyzer._ocr, _ui_detector, _ocr_initialized, _ui_detector_initialized pour désactiver OCR/UI. Deux loops partageant le singleton se polluaient mutuellement. Après : deux loops partageant l'analyzer sont complètement isolés. Preuve par TestAnalyzerIsolationBetweenLoops (3 tests). Singleton get_screen_analyzer() préservé — garde uniquement les ressources lourdes, plus de contexte d'exécution. 9 nouveaux tests (3 isolation + 6 kwargs-only/lazy-init). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:41 +02:00
Dom	8c7b6e5696	feat(scoring): EdgeScorer utilise la vraie source_similarity (Lot B) Avant : source_similarity=1.0 hardcodé dans _check_preconditions -> la contrainte EdgeConstraints.min_source_similarity était silencieusement désactivée. Un edge passait toujours. Après : propagation ExecutionLoop -> workflow_pipeline -> EdgeScorer - select_best/rank/score_edge/_check_preconditions acceptent source_similarity: float (kwargs-only) - get_next_action() le propage - execution_loop passe la confidence issue de match_current_state La contrainte min_source_similarity est opérationnelle pour la première fois. Preuve concrète par test_min_source_similarity_fail et test_low_similarity_blocks_edge (edge rejeté si sim < seuil). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:28 +02:00
Dom	af4ffa189a	feat(analytics): normalise API + contrat explicite get_next_action (Lot A) Contrat get_next_action() — suppression du None ambigu : {"status": "selected", "edge": ..., ...} {"status": "terminal"} {"status": "blocked", "reason": "no_valid_edge" \| ...} ExecutionLoop dispatche proprement : blocked -> PAUSED + _pause_requested, terminal -> succès légitime. Rétrocompat défensive (None legacy -> blocked). Analytics API normalisée (kwargs-only) : on_execution_complete(duration_ms, status, steps_total\|completed\|failed) on_step_complete(duration_ms, ...) on_recovery_attempt(duration_ms, ...) Découverte critique : les anciens appels utilisaient des méthodes et champs inexistants (ExecutionMetrics.duration, metrics_collector.record_execution). Le code n'avait jamais tourné au runtime — zéro analytics remontée. L'exception était avalée par le try/except englobant. 58 tests (18 analytics + 11 contrat + 20 ExecutionLoop + 12 edge_scorer non-régression). Migration complète, pas de pont legacy. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:19 +02:00
Dom	36737cfe9d	feat(security): eval()→AST parseur + pickle→JSON+HMAC signé Vulnérabilité 1 — eval() dans DAG executor : - Nouveau module safe_condition_evaluator.py - Parseur AST avec whitelist (Constants, Names, Compare, BoolOp, BinOp) - Rejet explicite Call/Lambda/Import/__dunder__/walrus/comprehensions - Expression non sûre → logged ERROR + évaluée à False (pas de crash) - 31 tests (12 valides, 17 malveillantes rejetées, 2 intégration) Vulnérabilité 2 — 3× pickle.load() non sécurisés : - Nouveau module signed_serializer.py (JSON+HMAC-SHA256) - Format : RPA_SIGNED_V1\\n + JSON(hmac + payload base64) - Migration automatique transparente au premier chargement - Fallback pickle avec WARNING (désactivable RPA_ALLOW_PICKLE_FALLBACK=0) - Remplacement dans faiss_manager, visual_embedding_manager, visual_persistence_manager - 13 tests Clé signature : RPA_SIGNING_KEY (fallback TOKEN_SECRET_KEY puis hostname-derived). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:49:17 +02:00
Dom	f7b8cddd2b	feat(anonymisation): blur PII côté serveur via EDS-NLP + VLM local-first Blur PII server-side (core/anonymisation/pii_blur.py) : - Pipeline OCR (docTR) → NER (EDS-NLP + fallback regex) - Détection ciblée noms/prénoms/adresses/NIR/téléphone/email - Protection explicite CIM-10, CCAM, montants €, dates, IDs techniques - Dual-storage : shot_XXXX_full.png (brut) + _blurred.png (affichage) - 18 tests Client : - RPA_BLUR_SENSITIVE=false par défaut (blur serveur uniquement) - Zéro overhead côté poste utilisateur VLM config : - vlm_config.py : gemma4:latest, fallbacks qwen3-vl:8b + UI-TARS - think=false auto pour gemma4 (bug Ollama 0.20.x) - VLM provider VWB : local-first (Ollama), cloud opt-in via VLM_ALLOW_CLOUD Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:23 +02:00
Dom	f96f6322ec	chore: nettoyage code mort — suppression _a_trier/, archives/, .bak, scaffold vide Supprime ~8.2 Go de fichiers parasites qui polluent les grep, consomment des tokens, et ajoutent du bruit au repo : - _a_trier/ (561 Mo) — scripts legacy, backups, sessions logs, démos - archives/ (21 Mo) — copie figée code décembre 2024 (déjà dans git history) - visual_workflow_builder/_a_trier/ (7.6 Go) — backups VWB legacy + anciens frontends - web_dashboard/app.py.bak_20260304_2225 — fichier .bak oublié - agent_v1/ (top-level) — scaffold vide jamais alimenté - core/detection/ui_detector_old.py.bak — .bak traqué par erreur Retire aussi du tracking git : - 2 fichiers __pycache__ traqués par erreur dans VWB backend Met à jour .gitignore pour prévenir la récurrence : - .bak, .bak_, .orig, *.old - _a_trier/, archives/ Tout ce contenu reste récupérable via git history (tag pre-cleanup-phase1-20260410). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-12 11:35:31 +02:00
Dom	9188bd7df1	fix: masquer la fenêtre console lors du spawn lea_uia.exe sur Windows Ajoute creationflags=CREATE_NO_WINDOW (0x08000000) au subprocess.run() qui appelle lea_uia.exe dans UIAHelper._run(). Sans ce flag, Windows ouvre brièvement une fenêtre cmd noire à CHAQUE appel — et le captor appelle UIA à chaque clic utilisateur pendant l'enregistrement. Symptômes rapportés par Dom : - Flash de fenêtre terminal à chaque clic (visible à l'œil) - Ralentissement de la souris pendant les enregistrements - Pollution des données d'apprentissage : le VLM de post-analyse "voit" la fenêtre cmd et l'enregistre comme élément cliqué (log serveur : "gemma4 a lu l'élément : 'C:\\Lea\\helpers\\lea_uia.exe'") Implémentation portable : - Flag calculé au niveau module : 0x08000000 sur Windows, 0 sur Linux/Mac - getattr(subprocess, "CREATE_NO_WINDOW", ...) pour gérer l'absence de la constante sur Linux - creationflags=0 est un no-op sur Linux, safe Appliqué aux 2 copies synchronisées : - agent_v0/agent_v1/core/uia_helper.py (source active pour l'agent) - core/workflow/uia_helper.py (copie identique) 85 tests in silico OK (29 UIA + 56 E2E/Phase0). Le vrai test c'est Dom qui refait un enregistrement et vérifie qu'il n'y a plus de flash de terminal. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 22:18:11 +02:00
Dom	e66629ce1a	fix: filtre UIA-aware + polling pré-vérif tolérant Filtre d'événements parasites basé sur la CIBLE UIA : - Un clic n'est filtré que si son uia_snapshot indique que l'élément cliqué (ou un parent) est dans la fenêtre de Léa. - Avant : on filtrait sur window.title qui pouvait être "Lea" même quand le clic visait la taskbar (Léa au premier plan). - Après : on regarde où va VRAIMENT le clic via parent_path UIA. Extraction du expected_window depuis le parent_path UIA : - Priorité au nom de la fenêtre racine du parent_path (plus fiable). - Fallback sur window.title si pas de snapshot UIA ou pas de racine. - Les fenêtres Léa sont neutralisées (effective_title=""). Pré-vérif avec polling tolérant (executor.py) : - 5 tentatives avec 300ms entre chaque (total 1.5s max). - Ignore les transitions "unknown_window" et fenêtre Léa. - Évite les faux négatifs sur fenêtres en cours de changement. Note : le filtrage reste basé sur des heuristiques. Un tri intelligent par gemma4 au build reste à implémenter pour gérer les workflows enregistrés avec des actions parasites (mail, chat, etc.). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 14:25:40 +02:00
Dom	cecdf417b7	fix: contrôle strict des étapes + routage par machine_id Corrections critiques après test E2E qui montrait des clics au mauvais endroit : 1. Routage par machine_id (api_stream.py) Quand 2 machines partagent le même session_id (agent_demo_user), les actions d'un replay pour la VM ne doivent PLUS être distribuées au PC physique. Vérification que le replay_state appartient bien à la machine qui poll avant de consommer la queue. 2. IRBuilder extrait expected_window_before/after (ir_builder.py) Pour chaque action click/type/key_combo, stocke le titre de la fenêtre au moment du clic (before) et le titre du prochain événement (after). Ces champs alimentent le contrôle strict au runtime. 3. ExecutionCompiler crée SuccessCondition title_match (execution_compiler.py) Quand expected_window_after est défini, crée une condition de succès STRICTE avec method="title_match" et expected_title. Plus de simple "l'écran a changé" — on vérifie la fenêtre résultante. 4. Runner propage expected_window_before et success_strict Le flag success_strict indique à l'agent que le contrôle post-action DOIT être strict (STOP sur mismatch au lieu de warning). 5. UIA strict sur parent_path (executor.py) _resolve_via_uia_local REJETTE un match si l'élément trouvé n'est pas dans la bonne fenêtre parente (évite ex: "Rechercher" taskbar confondu avec "Rechercher" explorateur). 6. Pré/post vérif stricte et bloquante (executor.py) - expected_window_before lu en priorité depuis l'action (plan V4) - Post-vérif : si success_strict=True et timeout, result.success=False → le replay s'arrête au lieu de continuer avec des warnings. Validé sur la VM : - Le replay s'arrête proprement quand l'étape 2 aboutit dans "Propriétés de Internet" au lieu de "blocnote.txt - Bloc-notes" - Plus de clics en aveugle / saisie au mauvais endroit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 14:05:23 +02:00
Dom	332366b58c	feat: câblage complet V4 — stratégie UIA + surface profile Pipeline V4 câblé de bout en bout : RawTrace (avec uia_snapshot) → IRBuilder → Action._enrichment WorkflowIR → ExecutionCompiler (avec SurfaceProfile) → ExecutionPlan ExecutionPlan → runner → target_spec (avec uia_target + resolve_order) ResolutionStrategy étendu : - Champs UIA : uia_name, uia_control_type, uia_automation_id, uia_parent_path - Champs DOM : dom_selector, dom_xpath, dom_url_pattern (préparation web) ExecutionCompiler.compile(surface_profile=...) : - Timeouts/retries tirés du profil (citrix=15s/3x, web=5s/1x, natif=8s/2x) - UIA primaire seulement si surface=WINDOWS_NATIVE et uia_available - Citrix ignore UIA même si snapshot présent (UIA ne marche pas dans Citrix) IRBuilder lit evt['uia_snapshot'] et le stocke dans action._enrichment (à remplir par l'agent Windows pendant l'enregistrement via lea_uia.exe) execution_plan_runner propage uia_target et dom_target dans target_spec pour que l'agent Windows puisse les consommer au runtime. 11 tests de câblage E2E : - Profils (Citrix/web/natif) imposent bien les timeouts - Stratégie UIA créée quand snapshot+surface OK - Stratégie UIA bloquée sur Citrix - IRBuilder propage uia_snapshot - Runner produit target_spec avec uia_target + resolve_order=['uia', 'ocr', 'vlm'] 496 tests au total, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 11:02:51 +02:00
Dom	ac9c207474	feat: SurfaceClassifier + UIAHelper — détection et wrapper Python SurfaceClassifier — détecte le type d'application au runtime - 4 surfaces : citrix / windows_native / web_local / unknown - Paramètres adaptés par surface : * Citrix : OCR 0.65, timeouts 15s, retries 3x (compression JPEG tolérée) * Windows natif : OCR 0.75, timeouts 8s, UIA bonus si dispo * Web : OCR 0.80, timeouts 5s, paramètres rapides * Unknown : fallback sûr - resolve_order() construit la chaîne selon les capacités disponibles - Détection UIA via health check du helper Rust - Détection CDP via localhost:9222 UIAHelper — wrapper Python pour lea_uia.exe - Subprocess + JSON stdin/stdout - 3 méthodes : query_at(x,y), find_by_name(name,...), capture_focused() - Fallback silencieux (None) si helper absent, timeout, crash - Singleton global get_shared_helper() - Dataclass UiaElement avec center(), is_clickable(), path_signature() 29 nouveaux tests (détection 4 surfaces, dataclass, wrapper, mocks). 485 tests au total, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 10:54:19 +02:00
Dom	172167f6c0	feat: Léa apprentissage — mode Shadow amélioré (observation + validation) Aspect 3/4 Léa : Léa montre ce qu'elle comprend pendant l'enregistrement. ShadowObserver (observation temps réel) : - Segmentation incrémentale en UnderstoodStep (changement app, pause, Ctrl+S) - Détection de variables pendant la saisie (typage : date, email, code, texte) - Notifications 4 niveaux : INFO, DECOUVERTE, QUESTION, VARIABLE - Heartbeat périodique, hook gemma4 optionnel (asynchrone) - Thread-safe (RLock), singleton partagé - Performance : 1000 events en < 500ms ShadowValidator (feedback utilisateur) : - 6 actions : validate, correct, undo, cancel, merge_next, split - Reconstruit un WorkflowIR propre avec variables substituées - Historique complet des feedbacks 5 endpoints REST /api/v1/shadow/* : - start, stop, feedback, understanding, build Hook non-bloquant dans stream_event() (try/except, no-op si inactif). Mode optionnel : pas d'impact tant que shadow/start n'est pas appelé. 54 tests (26 observer + 28 validator), 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:04:37 +02:00
Dom	f541bb8ce4	feat: Léa chat + IRBuilder enrichi (stratégies V4 complètes) Aspect 2/4 Léa : interface conversationnelle - chat_interface.py : ChatSession thread-safe, états idle/planning/awaiting/executing/done - 5 endpoints REST : /api/v1/chat/* (session, message, history, confirm, sessions) - web_dashboard/chat.html + chat.js : UI minimaliste, polling 2s, pas de framework - Proxy Flask /api/chat/* → serveur streaming - 34 tests (happy path, abandon, refus, erreurs, gemma4 down) IRBuilder enrichi pour plans V4 complets - _event_to_action() appelle enrich_click_from_screenshot() quand session_dir dispo - Chaque clic porte _enrichment (by_text OCR, anchor_image_base64, vlm_description) - ExecutionCompiler consomme l'enrichissement pour produire 3 stratégies par clic Avant : [ocr] uniquement, target="unknown_window" Après : [ocr, template, vlm] avec vrai texte OCR ("Rechercher", "Ouvrir") Validé sur session réelle : 10/10 clics enrichis (by_text + anchor + vlm_description) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:01:13 +02:00
Dom	bffcfb2db3	feat: ExecutionCompiler — compile WorkflowIR en plan d'exécution borné Pièce maîtresse de l'architecture V4 : - ExecutionPlan : nœuds avec stratégies de résolution pré-compilées - ExecutionCompiler : WorkflowIR → ExecutionPlan déterministe - Résolution : OCR (primaire, 100ms) > template > VLM (exception handler) - Chaque nœud : timeout, max_retries, recovery, condition de succès - Variables substituables, versionné, sérialisable JSON - 18 tests (compilation, stratégies, fallbacks, variables, roundtrip) "Le LLM compile. Le runtime exécute." Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 22:21:40 +02:00
Dom	cc673755f7	feat: WorkflowIR — représentation intermédiaire du savoir-faire Format canonique entre RawTrace (capture) et ExecutionPlan (exécution). C'est ce que Léa a COMPRIS en observant l'utilisateur. - WorkflowIR : steps, variables, intentions, pré/postconditions - IRBuilder : transforme les événements bruts en WorkflowIR via gemma4 - Générique : fonctionne pour TIM, compta, RH, stocks — le domaine est une couche par-dessus - Versionné, sérialisable JSON, save/load - Détection automatique des variables (texte saisi → substituable) - 18 tests (format, sérialisation, builder, segmentation, variables) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:50:32 +02:00
Dom	99041f0117	feat: pipeline complet MACRO/MÉSO/MICRO — Critic, Observer, Policy, Recovery, Learning, Audit Trail, TaskPlanner Architecture 3 niveaux implémentée et testée (137 tests unitaires + 21 visuels) : MÉSO (acteur intelligent) : - P0 Critic : vérification sémantique post-action via gemma4 (replay_verifier.py) - P1 Observer : pré-analyse écran avant chaque action (api_stream.py /pre_analyze) - P2 Grounding/Policy : séparation localisation (grounding.py) et décision (policy.py) - P3 Recovery : rollback automatique Ctrl+Z/Escape/Alt+F4 (recovery.py) - P4 Learning : apprentissage runtime avec boucle de consolidation (replay_learner.py) MACRO (planificateur) : - TaskPlanner : comprend les ordres en langage naturel via gemma4 (task_planner.py) - Contexte métier TIM/CIM-10 pour les hôpitaux (domain_context.py) - Endpoint POST /api/v1/task pour l'exécution par instruction Traçabilité : - Audit trail complet avec 18 champs par action (audit_trail.py) - Endpoints GET /audit/history, /audit/summary, /audit/export (CSV) Grounding : - Fix parsing bbox_2d qwen2.5vl (pixels relatifs, pas grille 1000x1000) - Benchmarks visuels sur captures réelles (3 approches : baseline, zoom, Citrix) - Reproductibilité validée : variance < 0.008 sur 10 itérations Sécurité : - Tokens de production retirés du code source → .env.local - Secret key aléatoire si non configuré - Suppression logs qui leakent les tokens Résultats : 80% de replay (vs 12.5% avant), 100% détection visuelle Citrix JPEG Q20 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:03:25 +02:00
Dom	0bd0fbb8c5	fix: SomEngine sur CPU pour cohabiter avec Qwen2.5-VL GPU Qwen2.5-VL occupe 9.8 GB de VRAM → plus de place pour YOLO. SomEngine passe en CPU (1.4s au lieu de 0.1s, acceptable car utilisé uniquement pendant le build_replay, pas le replay). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-01 09:30:00 +02:00
Dom	a92d04621a	refactor: nettoyage agent + fix SomEngine review (singleton partagé, cache, thread-safe) Nettoyage Windows agent : - Suppression lea_ui inutilisés (chat_widget, overlay, styles, etc. — -1991 lignes) - Suppression window_info*.py dupliqués (racine + core/ — -494 lignes) - build/ + dist/ supprimés (48 MB PyInstaller abandonné, gitignorés) Fix SomEngine (review quality guardian) : - Singleton GPU partagé via get_shared_engine() (1 instance au lieu de 2) - Thread-safe avec threading.Lock (double-checked locking) - Cache SomResult par screenshot_id (max 50, évite YOLO+OCR redondants) - Fuite fichier temp docTR corrigée (finally block) - Chemin YOLO configurable via SOM_YOLO_WEIGHTS env var - Guard som_image None avant VLM - Match texte partiel : len(label) >= 3 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 10:04:27 +02:00
Dom	2ddccff108	feat: SomEngine — Set-of-Mark avec YOLO + docTR pour détection UI - SomEngine : détecte et numérote tous les éléments UI d'un screenshot - YOLO v8 (OmniParser) : détection icônes/boutons (~15ms GPU) - docTR : OCR pour le texte visible - Annotation visuelle : numéros rouges sur chaque élément - find_element_at(x, y) : trouve l'élément cliqué par coordonnées - Fix Florence-2 / transformers 4.57 incompatibilité (past_key_values) - Testé : 107 éléments détectés sur screenshot Windows 2560x1600 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 08:26:07 +02:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	24a947b51d	perf: 1 appel VLM par screenshot + sélection intelligente + Rust auto-launch Léa Analyse VLM : - 1 seul appel VLM par screenshot au lieu de 30 (~15s vs 6.5min) - Sélection screenshots par hash perceptuel (3-4 utiles sur 12) - Fallback classification individuelle si appel unique échoue - Estimation : ~1min par workflow au lieu de 78min Rust agent : - Léa (Edge mode app) s'ouvre automatiquement au démarrage - Plus besoin de systray pour lancer le chat - Fix URL chat /chat → / Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-19 00:26:29 +01:00
Dom	ad7ff3bce4	perf: réduire crops VLM 80→30 + fix bridge learned workflows path - 30 crops suffisent pour les éléments UI principaux - ~6min/screenshot au lieu de 17min (3x plus rapide) - Bridge cherche aussi dans live_sessions/workflows/ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:57:36 +01:00

1 2

72 Commits