rpa_vision_v3

Author	SHA1	Message	Date
Dom	0b06db222d	fix: activer la fenêtre cible après minimisation du navigateur VWB Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Après minimisation du navigateur, xdotool active la fenêtre suivante (VM QEMU, app cible). Avant, le terminal restait au premier plan → mss capturait le terminal au lieu de la VM. Cause racine de tous les échecs de matching. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 18:21:55 +02:00
Dom	6ab385d671	fix(grounding): OCR collecte TOUS les matchs + choisit le plus proche de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Avant : OCR retournait le premier match → cliquait sur la barre de titre ("CR_patient_demo" dans le path) au lieu du fichier dans la liste. Après : collecte tous les matchs, choisit le plus proche de la position originale de l'ancre (anchor_bbox). Si pas de bbox, prend le plus central. Élimine les clics sur les barres de titre, breadcrumbs, menus. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:40:15 +02:00
Dom	b3eab83a0f	fix: variable 'result' non définie quand grounding réussit sans CLIP Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:26:45 +02:00
Dom	27490849a8	refactor: OCR/UI-TARS en PREMIER, CLIP en fallback Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le grounding par texte (OCR → UI-TARS) est maintenant la méthode PRINCIPALE. CLIP n'est appelé que si le grounding échoue. Avant : CLIP (faux positifs confiants) → cascade grounding (rarement atteinte) Après : OCR 1s → UI-TARS 3s → CLIP (fallback visuel pur) C'est comme ça que font UI-TARS, Agent-S3 et AppAgent. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 14:40:38 +02:00
Dom	cebbf0809a	fix: timeout VLM 15→60s + OCR zone élargie autour de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 14:05:38 +02:00
Dom	84181cc982	feat: analyse OCR+VLM de l'ancre à la capture (pas à l'exécution) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand l'utilisateur sélectionne une ancre dans le VWB : 1. OCR docTR extrait le texte du crop → target_text 2. Si texte < 3 chars → VLM qwen2.5vl:3b décrit en 5 mots 3. Stocké en BDD (VisualAnchor.target_text + ocr_description) 4. Injecté automatiquement dans les params à l'exécution L'exécution sait maintenant QUOI chercher dès le départ : - CLIP vérifie par OCR que le texte correspond - Le grounding cascade a un vrai target_text - Plus besoin de deviner à chaque run Migration SQLite gracieuse (ALTER TABLE si colonnes absentes). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:26:30 +02:00
Dom	7355d315a3	fix: vérification croisée CLIP+OCR + description ancre avant exécution Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand CLIP dit "trouvé", on vérifie par OCR que le texte à cette position correspond au target. Si CLIP clique sur "Ce PC" au lieu de "CR_patient_demo", l'OCR le rejette → fallback sur la cascade. Description VLM de l'ancre AVANT le CLIP quand le label est un type d'action (double_click_anchor → "text file icon CR_patient"). Le target_text enrichi sert à la vérification croisée ET au grounding. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:10:01 +02:00
Dom	73ddcdb29d	feat: chaîne de grounding 3 niveaux + refonte capture écran Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Grounding en cascade quand CLIP/template échouent : 1. OCR (docTR) → cherche le texte exact sur l'écran (~1s) 2. UI-TARS grounding → "click on X" → coordonnées (~3s, 94% ScreenSpot) 3. VLM reasoning → raisonnement complet + confirmation OCR (~10s) find_element_on_screen() dans input_handler.py (partagé VWB + Léa). Câblé dans find_and_click() et execute_action() comme fallback. Refonte capture écran : - mss.monitors[0] (composite) pour capturer la VM en plein écran - FullscreenSelector réécrit : overlay via getBoundingClientRect() - Bboxes et sélection alignées avec l'image (calcul JS, pas CSS) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:31:38 +02:00
Dom	14a9442343	refactor(vwb): refonte complète capture écran — stable définitivement Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details FullscreenSelector réécrit : - Overlay unique positionné via getBoundingClientRect() - Recalcul auto au resize - Coordonnées souris relatives à l'image - Plus de décalage bboxes/sélection Capture backend : - mss.monitors[0] (écran composite) au lieu de pyautogui.screenshot() - Capture la VM en plein écran correctement Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:03:19 +02:00
Dom	6c7f88c05d	refactor: factorisation input_handler partagé + page cartographie processus Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details core/execution/input_handler.py (NOUVEAU) : - safe_type_text() : setxkbmap fr + xdotool, partagé entre les 2 executors - check_screen_for_patterns() : détection dialogues UI via OCR - handle_detected_pattern() : clic bouton par OCR (mot exact, le plus bas) - post_execution_cleanup() : vérification post-workflow VWB executor : suppression du code dupliqué, alias vers input_handler Core executor : pyautogui.write() remplacé par safe_type_text() Page dashboard "Cartographie des processus" : - GET /process-mining : vue analyse des flux de travail - POST /api/process-mining/discover : génère BPMN + indicateurs - 4 cartes indicateurs, diagramme, points d'attention, variantes - Dark theme, français, zéro jargon technique - Onglet ajouté dans la navigation Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:08:37 +02:00
Dom	55d5aebbd2	feat(knowledge): vérification post-workflow — dialogues restants Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 9s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Après la dernière étape, Léa vérifie l'écran et gère les dialogues restants (jusqu'à 3 vérifications en cascade). Le workflow laisse l'écran propre à la fin. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 11:53:38 +02:00
Dom	73b731fef8	fix(knowledge): seuil OCR bouton 3→2 chars pour supporter OK et No Some checks failed security-audit / Bandit (scan statique) (push) Successful in 18s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le filtre len<3 bloquait les boutons "OK" (2 chars) et "No" (2 chars). Seuil abaissé à 2 — filtre les lettres isolées mais laisse passer les boutons courts courants des dialogues Windows. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 11:09:10 +02:00
Dom	ffd97ae9a5	feat(knowledge): détection et gestion automatique des dialogues UI Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 12s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details UIPatternLibrary câblée dans l'executor et le stream processor. Pendant un wait_for_anchor, Léa surveille l'écran toutes les secondes : 1. OCR plein écran (docTR) 2. Pattern matching (dialogues Save, OK, Cancel, cookies...) 3. OCR ciblé pour trouver le bouton par son texte réel 4. Clic sur le match le plus bas (bouton, pas titre) Fix : seuil ratio supprimé (trigger trouvé = match, quelle que soit la longueur du texte OCR). Matching strict mot exact ≥3 chars (évite les faux positifs sur lettres isolées). Fallback recherche partielle pour les lettres soulignées (E_nregistrer). Plus aucune coordonnée hardcodée — 100% vision. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 11:06:17 +02:00
Dom	d168833609	fix: import Optional/Dict/Any pour _check_screen_for_patterns Some checks failed tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 9s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-19 10:55:26 +02:00
Dom	23a06a744c	feat(knowledge): câblage UIPatternLibrary dans executor + stream processor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details VWB Executor : - _check_screen_for_patterns() : capture écran + OCR + pattern matching - _handle_detected_pattern() : clic automatique sur dialogues connus - Vérifie entre chaque étape en mode intelligent/debug - Si un dialogue bloque (OK, Save, Cancel), Léa le gère seule Stream Processor : - Enrichit les ScreenState avec ui_pattern/ui_pattern_action/ui_pattern_target - Les patterns détectés sont loggés et stockés dans les résultats - Permet au GraphBuilder de savoir quels écrans sont des dialogues Phase 2 du plan "connaissance native de l'environnement". Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-19 10:54:19 +02:00
Dom	e3efef2fe7	fix(vwb): noms workflows lisibles + bibliothèque captures persistante Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CSS : le dropdown héritait color:white du header → forcé #212121 sur .workflow-dropdown et .dropdown-item .item-name Bibliothèque : migration localStorage → backend (capture_library.json) - GET/POST /api/v3/capture/library (max 50 captures) - loadLibraryAsync() charge depuis backend, fallback localStorage - saveLibrary() écrit dans les deux (localStorage + backend) - capture_library.json gitignored Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-19 00:04:30 +02:00
Dom	95fddeebb3	fix(typing): setxkbmap fr avant xdotool type — fix AZERTY dans VM QEMU Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le refresh du layout X11 juste avant xdotool type force le bon keymap. Sans ça, xdotool envoie des keycodes décalés (: → M, / → !, etc.) dans les VM spice/QEMU. Solution trouvée via askubuntu.com/questions/914718. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:52:19 +02:00
Dom	71523cebd3	fix(typing): presse-papier en priorité (fonctionne avec spice-vdagent) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Remet xclip+Ctrl+V comme méthode prioritaire. Les spice tools sont installés dans la VM → le presse-papier est partagé → pas de problème de mapping clavier. xdotool envoie des événements synthétiques X11 que spice/QEMU traite différemment des vraies frappes (: → M). Citrix partage aussi le clipboard nativement → même méthode en prod. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:27:54 +02:00
Dom	3aa806a630	fix(typing): hybride xdotool type+key — rapide et compatible AZERTY/VM Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details xdotool type pour les segments alphanumériques (un seul appel, rapide), xdotool key avec keysym uniquement pour les caractères spéciaux (:, /, @, etc.) qui cassent en AZERTY dans les VM. Évite le subprocess par caractère (trop lent, effet visuel désagréable). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:18:21 +02:00
Dom	588c8f22c1	fix(typing): xdotool key par keysym au lieu de type (fix AZERTY dans VM) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details xdotool type envoie des scancodes QWERTY — dans une VM AZERTY, ':' devient 'M', '/' devient '!', etc. Nouvelle approche : xdotool key avec les noms de keysym X11 (colon, slash, period, etc.) qui sont indépendants du layout. Chaque caractère est envoyé individuellement — plus lent mais 100% fiable en AZERTY/QWERTY, local ou VM. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:15:44 +02:00
Dom	3d243d731d	fix: xdotool prioritaire sur clipboard (VM/Citrix), cosmétique sidebar Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details safe_type_text() : xdotool type en priorité au lieu du presse-papier. Le clipboard xclip ne traverse pas les VM (QEMU) ni Citrix/RDP. xdotool envoie des frappes X11 réelles que les VM capturent. Délai 20ms entre caractères pour fiabilité. Cosmétique : couleur texte forcée sur les items workflow du sidebar (color: var(--text-primary)) — était blanc sur blanc. Logs diagnostic ajoutés dans execute_workflow_thread et execute_action. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:11:10 +02:00
Dom	309dfd5287	feat: process mining BPMN, détection changement écran pHash, OCR docTR Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Process Mining (core/analytics/process_mining_bridge.py) : - Bridge PM4Py : conversion sessions Shadow → event log → BPMN XML + PNG - KPIs automatiques : durée, variantes, goulots, distribution par app - Support sessions JSONL brutes et workflows core JSON - 42 tests (dont 1 sur données réelles) Détection changement d'écran (core/analytics/screen_change_detector.py) : - pHash (imagehash) : ~16ms par screenshot, seuils SAME/MINOR/MAJOR - 8 tests sur screenshots réels OCR docTR dans execute_extract_text : - docTR par défaut pour lecture simple (rapide, CPU) - Ollama VLM en fallback ou sur demande explicite (mode "vlm"/"ai") - Dual-mode adaptatif selon extraction_mode Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 13:07:56 +02:00
Dom	1acea85fa6	feat(vwb): câblage 19 blocs, OCR réel, screenshots ancres, configs déploiement Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Dispatch execute_action élargi de 12 à 19 blocs opérationnels : - 4 blocs souris (hover, drag_drop, scroll, focus) avec pyautogui - extract_text via Ollama VLM (remplace stub hardcodé) - 5 blocs ai_* redirigés vers execute_ai_analyze avec prompts adaptés - screenshot_evidence (capture + sauvegarde PNG) - verify_element_exists (détection visuelle CLIP) Import workflows Léa enrichi : - Bridge extrait anchor_image_base64 des edges - Import crée VisualAnchor en DB + fichiers thumbnail sur disque - PropertiesPanel affiche automatiquement les screenshots Frontend : - visual_condition et loop_visual masqués (hidden: true) - Filtre dans ToolPalette pour exclure les blocs cachés Déploiement : - 2 configs agent (TIM Pauline + Dev Windows) avec machine_id unique - 2 workflows démo dans la BDD (batch factures + extraction IA) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 09:40:28 +02:00
Dom	10739c33fa	feat(vwb): nom par défaut explicite pour workflows importés de Léa (B2) Avant : tous les workflows importés s'appelaient « Unnamed Workflow » → la liste devenait illisible dès qu'il y en avait plusieurs. Après : génération d'un nom explicite par _derive_default_name : 1. Premier `template.window.title_pattern` utile dans les nodes (filtrage de "Unknown" / "unknown_window"), avec extraction de l'app derrière le séparateur Windows « – » / « - » (ex: « Sans titre – Bloc-notes » → « Bloc-notes »). 2. Premier `template.window.process_name` non-null (ex: « explorer.exe »). 3. Fallback : 8 premiers caractères du workflow_id, après nettoyage des préfixes techniques ("workflow_sess_", ...). Le nom final inclut toujours la date de l'import : « Léa Bloc-notes — 2026-04-16 08:41 » « Léa explorer.exe — 2026-04-16 08:41 » « Léa 20260404 — 2026-04-16 08:41 » (fallback) Ne se déclenche que si le nom entrant est vide, « Unnamed Workflow » ou « Workflow importé » (insensible à la casse). Le paramètre `name` explicite de la requête reste prioritaire. L'utilisateur peut renommer via le bouton éditer. Pas de modification du schema workflow (champ `name` existant). Tests manuels sur données réelles : - notepad_enriched.json (tous nodes "Unknown") → fallback id OK - Bloc-notes, Explorateur et Recherche (2) → « Léa Rechercher » - workflow construit avec title 'Sans titre – Bloc-notes' → « Léa Bloc-notes » OK Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-16 08:42:11 +02:00
Dom	c77844fa9a	feat(capture_server): auth Bearer + bind localhost + anti-path-traversal - Token obligatoire (RPA_API_TOKEN) sur /capture et /file-action - Bind 127.0.0.1 par défaut, 0.0.0.0 exige token (fail-closed) - /health reste public pour monitoring - VWB backend injecte le Bearer pour les proxys distants - hmac.compare_digest pour comparaison temps constant Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:45 +02:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	5973058f08	feat: unification VWB ↔ Léa — import/export bidirectionnel - Workflows appris par Léa visibles dans le VWB ("Appris par Léa") - Bouton "Importer" pour éditer un workflow appris - Bouton "Exporter pour Léa" pour rendre un workflow VWB exécutable - Conversion bidirectionnelle core ↔ VWB via learned_workflow_bridge - Liste unifiée dans le chat Léa (merged + dédupliquée) - reload_workflows() sur le streaming server (pas de redémarrage) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:41:34 +01:00
Dom	353c2a347e	feat: floutage auto champs sensibles + fix routing actions fichiers Floutage (conformité AI Act) : - Détection OpenCV des champs de saisie (rectangles clairs avec texte) - Flou gaussien avant stockage/envoi - Activé par défaut (RPA_BLUR_SENSITIVE=true) - <200ms par screenshot, 12 tests Fix actions fichiers VWB : - Pas de wait 5s pour les actions fichiers (inutile) - Routing direct vers agent port 5006 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:24:01 +01:00
Dom	40e5fba86c	feat: outils gestion fichiers dans le VWB (📁 Fichiers) - 5 actions : lister, créer dossier, déplacer, copier, classer par extension - Exécution sur Windows via agent port 5006 - Sécurité chemins (bloque C:\Windows, /etc, etc.) - Propriétés panel + preview canvas pour chaque action Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:05:36 +01:00
Dom	97d708c6f5	fix: replay visuel — fallback coordonnées bbox si template matching échoue - Le proxy injecte x_pct/y_pct depuis le centre du bbox de l'ancre - Si le visual resolve timeout → clic aux coordonnées bbox (pas à 0,0) - Lookup replay_states par machine_id (premier replay fonctionne) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:42:30 +01:00
Dom	58e8bbafff	fix: replay routing — lookup machine_id dans replay_states + auto-inject machine_id - /replay/next cherche dans replay_states par machine_id (pas seulement machine_replay_target) - execute-windows auto-détecte la machine Windows connectée - resolve_target utilise ThreadPool par défaut (pas le GPU executor saturé) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:05:42 +01:00
Dom	4e217e30dd	feat: capture Windows auto-détection OS, chat Léa agrandi, UX améliorée - Capture auto : détecte OS navigateur → capture Windows ou Linux - Timer capture utilise aussi la smart capture - Heartbeat background permanent (même sans session) - Tri screenshots par date (plus de vieilles captures) - Chat Léa : 450x650, polices 11pt, redimensionnable, meilleur contraste - Bouton Exécuter : "Linux" + "Windows" avec feedback visuel - Délai 5s avant replay Windows (temps de réduire le navigateur) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 23:03:53 +01:00
Dom	371db69543	feat: replay visuel Windows opérationnel — template matching + VWB complet - Bouton "Windows" dans VWB pour exécuter sur le PC distant - Template matching OpenCV multi-scale pour localiser les ancres visuelles - Proxy VWB→streaming server avec chargement ancre (thumb, pas full) - Fix executor Windows : mss lazy, result reporting, debug prints - Fix poll replay permanent (sans session active) - Mapping types VWB→executor (click_anchor→click, type_text→type) - CORS streaming server, capture Windows dans VWB - Dédup heartbeats côté client (hash perceptuel) - Mode cloud VLM configurable via RPA_VLM_MODEL - Fix resolve_target : pas de ScreenAnalyzer fallback (trop lent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 18:56:44 +01:00
Dom	97cb2957d5	feat: upload Excel via explorateur de fichier dans le VWB - Bouton "Parcourir..." ouvre l'explorateur natif du navigateur - Upload vers /api/v3/upload-excel, sauvegarde dans data/uploads/ - Nom de table auto-suggéré depuis le nom du fichier Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:17:05 +01:00
Dom	9da804bb6e	feat: import Excel → SQLite + boucle données → UI dans le VWB - ExcelImporter : import .xlsx → SQLite auto (détection types, batch insert) - DBIterator : lecture ligne par ligne avec filtre/tri/limite - VWB actions : "Importer Excel" + "Pour chaque ligne" dans la palette - DAG executor : pré-exécution import, boucle foreach avec injection ${current_row.colonne} dans les étapes dépendantes - 36 tests unitaires Excel/DB (tous passent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:10:51 +01:00
Dom	5e3865d328	feat: DAG executor async + intégration IA/LLM dans le VWB - DAGExecutor : exécution workflow par graphe de dépendances, étapes LLM parallèles, UI séquentielles, injection ${step.result} - LLMActionHandler : analyze_text, translate, extract_data, generate_text via Ollama /api/chat (qwen3-vl:8b, temperature 0.1) - VWB palette : catégorie "IA / LLM" avec 4 actions draggables - VWB propriétés : éditeurs pour chaque action LLM (modèle, prompt, langue) - VWB endpoint : POST /api/v3/workflow/<id>/execute-dag - 37 tests unitaires DAG executor (tous passent) - Fix log spam cache workflows (info → debug) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 22:58:44 +01:00
Dom	cf495dd82f	feat: chat unifié, GestureCatalog, Copilot, Léa UI, extraction données, vérification replay Refonte majeure du système Agent Chat et ajout de nombreux modules : - Chat unifié : suppression du dual Workflows/Agent Libre, tout passe par /api/chat avec résolution en 3 niveaux (workflow → geste → "montre-moi") - GestureCatalog : 38 raccourcis clavier universels Windows avec matching sémantique, substitution automatique dans les replays, et endpoint /api/gestures - Mode Copilot : exécution pas-à-pas des workflows avec validation humaine via WebSocket (approve/skip/abort) avant chaque action - Léa UI (agent_v0/lea_ui/) : interface PyQt5 pour Windows avec overlay transparent pour feedback visuel pendant le replay - Data Extraction (core/extraction/) : moteur d'extraction visuelle de données (OCR + VLM → SQLite), avec schémas YAML et export CSV/Excel - ReplayVerifier (agent_v0/server_v1/) : vérification post-action par comparaison de screenshots, avec logique de retry (max 3) - IntentParser durci : meilleur fallback regex, type GREETING, patterns améliorés - Dashboard : nouvelles pages gestures, streaming, extractions - Tests : 63 tests GestureCatalog, 47 tests extraction, corrections tests existants - Dépréciation : /api/agent/plan et /api/agent/execute retournent HTTP 410, suppression du code hardcodé _plan_to_replay_actions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 10:02:09 +01:00
Dom	4c9a6d293f	feat(vwb): Améliorer outils IA et supprimer fallback statique Backend: - analyser_avec_ia.py: centraliser URL Ollama via os.environ.get() - action_contracts.py: assouplir le contrat ai_analyze_text (mode texte sans ancre visuelle, accepter prompt ou analysis_prompt) - intelligent_executor.py: supprimer le fallback coordonnées statiques quand la vision échoue — renvoyer not_found pour self-healing - workflow.py: ajouter endpoints validate et export-training run.sh: - Corriger les ports (3000 → 3002) et le venv (venv_v3 → .venv) - Lancer run_v4.sh au lieu de l'ancien run.sh Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-17 10:56:17 +01:00
Dom	3ff36e3c79	refactor(audit): Nettoyage dette technique phases 1-4 Phase 1 — Code mort et duplication : - Supprimer catalog_routes.py (-1832 lignes, doublon de v2_vlm) - Mettre à jour app.py et app_lightweight.py vers catalog_routes_v2_vlm - Nettoyer 9 imports inutilisés dans catalog_routes_v2_vlm.py - Supprimer get_required_params inutilisé dans execute.py Phase 2 — Centraliser la configuration : - Ollama URL via os.environ.get() dans verify_text_content.py et extraire_tableau.py - MODEL_PATH relatif au projet + var env UI_DETR_MODEL_PATH dans ui_detection_service.py Phase 3 — Thread-safety de l'exécution : - Ajouter _execution_lock (RLock) pour protéger _execution_state - Remplacer le polling self-healing par threading.Event - Initialiser 'variables' dans le dict initial (plus de création dynamique) - Corriger bare except → except Exception as db_err avec message Phase 4 — Logging minimal : - Ajouter logger dans execute.py, remplacer print() critiques par logger - Configurer RotatingFileHandler (5MB, 3 backups) dans app.py Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-17 08:11:45 +01:00
Dom	a27b74cf22	v1.0 - Version stable: multi-PC, détection UI-DETR-1, 3 modes exécution - Frontend v4 accessible sur réseau local (192.168.1.40) - Ports ouverts: 3002 (frontend), 5001 (backend), 5004 (dashboard) - Ollama GPU fonctionnel - Self-healing interactif - Dashboard confiance Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-29 11:23:51 +01:00
Dom	21bfa3b337	feat(vwb): Ajouter SeeClick, Self-Healing interactif et Dashboard confiance ## Nouvelles fonctionnalités ### 1. SeeClick Adapter (visual grounding fallback) - Nouvel adapter pour le modèle SeeClick (HuggingFace) - Intégré dans la chaîne de fallback: CLIP → Template → SeeClick → Static - Localise les éléments GUI à partir de descriptions textuelles ### 2. Self-Healing Interactif - Dialogue qui propose des alternatives quand l'ancre n'est pas trouvée - L'utilisateur peut choisir: candidat alternatif, coords statiques, ou sauter - Nouveaux endpoints: /healing/status, /healing/choose, /healing/candidates - État "waiting_for_choice" pour mettre l'exécution en pause ### 3. Dashboard Confiance (temps réel) - Affiche les scores de confiance pendant l'exécution - Montre: méthode utilisée, distance, taux de succès - Interface pliable en bas à droite - Visible uniquement en mode intelligent/debug ## Fichiers ajoutés - core/detection/seeclick_adapter.py - frontend_v4/src/components/SelfHealingDialog.tsx - frontend_v4/src/components/ConfidenceDashboard.tsx ## Fichiers modifiés - core/detection/__init__.py - backend/services/intelligent_executor.py - backend/api_v3/execute.py - frontend_v4/src/App.tsx - frontend_v4/src/services/api.ts - docs/VISION_RPA_INTELLIGENT.md Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-24 02:34:01 +01:00
Dom	f04f156144	fix(vision): Corriger les seuils CLIP/Template pour éviter les clics erronés Problème résolu: - Le workflow cliquait au mauvais endroit (200-500px de distance) - Les seuils de matching étaient trop permissifs Corrections apportées: - CLIP: MAX_DISTANCE=120px, MIN_SCORE=0.55, MIN_COMBINED=0.5 - Template zonée: MAX_DISTANCE=150px - Template global: MAX_DISTANCE=150px (était 500px) - Ajout de logs détaillés pour debug des candidats rejetés - Désactivation de l'overlay debug (polling intensif inutile) Fichiers modifiés: - intelligent_executor.py: Seuils stricts + logs - execute.py: Logique d'exécution modes basic/intelligent/debug - ui_detection_service.py: Backend UI-DETR-1 - App.tsx: Overlay désactivé - ExecutionOverlay.tsx: URLs API corrigées Documentation: - docs/REFERENCE_VISION_RPA.md: Guide complet de référence Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-24 02:15:04 +01:00
Dom	858e6007f9	feat(vwb-v3): Architecture Thin Client fonctionnelle API = Source de vérité unique (SQLite + Flask) - Backend: API v3 avec session, workflow, capture, execute - Frontend: Vanilla TypeScript, pas de state local - Contrats stricts pour les actions RPA - Drag & drop pour réorganiser les étapes - Insertion d'étapes entre deux existantes - Bibliothèque de captures (sessionStorage) - Exécution avec coordonnées statiques (pyautogui) Fonctionne mais fragile (coordonnées fixes, pas de détection visuelle) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-23 12:07:13 +01:00

43 Commits