rpa_vision_v3

Author	SHA1	Message	Date
Dom	588c8f22c1	fix(typing): xdotool key par keysym au lieu de type (fix AZERTY dans VM) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 11s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details xdotool type envoie des scancodes QWERTY — dans une VM AZERTY, ':' devient 'M', '/' devient '!', etc. Nouvelle approche : xdotool key avec les noms de keysym X11 (colon, slash, period, etc.) qui sont indépendants du layout. Chaque caractère est envoyé individuellement — plus lent mais 100% fiable en AZERTY/QWERTY, local ou VM. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:15:44 +02:00
Dom	3d243d731d	fix: xdotool prioritaire sur clipboard (VM/Citrix), cosmétique sidebar Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details safe_type_text() : xdotool type en priorité au lieu du presse-papier. Le clipboard xclip ne traverse pas les VM (QEMU) ni Citrix/RDP. xdotool envoie des frappes X11 réelles que les VM capturent. Délai 20ms entre caractères pour fiabilité. Cosmétique : couleur texte forcée sur les items workflow du sidebar (color: var(--text-primary)) — était blanc sur blanc. Logs diagnostic ajoutés dans execute_workflow_thread et execute_action. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 23:11:10 +02:00
Dom	309dfd5287	feat: process mining BPMN, détection changement écran pHash, OCR docTR Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Process Mining (core/analytics/process_mining_bridge.py) : - Bridge PM4Py : conversion sessions Shadow → event log → BPMN XML + PNG - KPIs automatiques : durée, variantes, goulots, distribution par app - Support sessions JSONL brutes et workflows core JSON - 42 tests (dont 1 sur données réelles) Détection changement d'écran (core/analytics/screen_change_detector.py) : - pHash (imagehash) : ~16ms par screenshot, seuils SAME/MINOR/MAJOR - 8 tests sur screenshots réels OCR docTR dans execute_extract_text : - docTR par défaut pour lecture simple (rapide, CPU) - Ollama VLM en fallback ou sur demande explicite (mode "vlm"/"ai") - Dual-mode adaptatif selon extraction_mode Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 13:07:56 +02:00
Dom	1acea85fa6	feat(vwb): câblage 19 blocs, OCR réel, screenshots ancres, configs déploiement Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Dispatch execute_action élargi de 12 à 19 blocs opérationnels : - 4 blocs souris (hover, drag_drop, scroll, focus) avec pyautogui - extract_text via Ollama VLM (remplace stub hardcodé) - 5 blocs ai_* redirigés vers execute_ai_analyze avec prompts adaptés - screenshot_evidence (capture + sauvegarde PNG) - verify_element_exists (détection visuelle CLIP) Import workflows Léa enrichi : - Bridge extrait anchor_image_base64 des edges - Import crée VisualAnchor en DB + fichiers thumbnail sur disque - PropertiesPanel affiche automatiquement les screenshots Frontend : - visual_condition et loop_visual masqués (hidden: true) - Filtre dans ToolPalette pour exclure les blocs cachés Déploiement : - 2 configs agent (TIM Pauline + Dev Windows) avec machine_id unique - 2 workflows démo dans la BDD (batch factures + extraction IA) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-18 09:40:28 +02:00
Dom	10739c33fa	feat(vwb): nom par défaut explicite pour workflows importés de Léa (B2) Avant : tous les workflows importés s'appelaient « Unnamed Workflow » → la liste devenait illisible dès qu'il y en avait plusieurs. Après : génération d'un nom explicite par _derive_default_name : 1. Premier `template.window.title_pattern` utile dans les nodes (filtrage de "Unknown" / "unknown_window"), avec extraction de l'app derrière le séparateur Windows « – » / « - » (ex: « Sans titre – Bloc-notes » → « Bloc-notes »). 2. Premier `template.window.process_name` non-null (ex: « explorer.exe »). 3. Fallback : 8 premiers caractères du workflow_id, après nettoyage des préfixes techniques ("workflow_sess_", ...). Le nom final inclut toujours la date de l'import : « Léa Bloc-notes — 2026-04-16 08:41 » « Léa explorer.exe — 2026-04-16 08:41 » « Léa 20260404 — 2026-04-16 08:41 » (fallback) Ne se déclenche que si le nom entrant est vide, « Unnamed Workflow » ou « Workflow importé » (insensible à la casse). Le paramètre `name` explicite de la requête reste prioritaire. L'utilisateur peut renommer via le bouton éditer. Pas de modification du schema workflow (champ `name` existant). Tests manuels sur données réelles : - notepad_enriched.json (tous nodes "Unknown") → fallback id OK - Bloc-notes, Explorateur et Recherche (2) → « Léa Rechercher » - workflow construit avec title 'Sans titre – Bloc-notes' → « Léa Bloc-notes » OK Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-16 08:42:11 +02:00
Dom	c77844fa9a	feat(capture_server): auth Bearer + bind localhost + anti-path-traversal - Token obligatoire (RPA_API_TOKEN) sur /capture et /file-action - Bind 127.0.0.1 par défaut, 0.0.0.0 exige token (fail-closed) - /health reste public pour monitoring - VWB backend injecte le Bearer pour les proxys distants - hmac.compare_digest pour comparaison temps constant Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:45 +02:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	5973058f08	feat: unification VWB ↔ Léa — import/export bidirectionnel - Workflows appris par Léa visibles dans le VWB ("Appris par Léa") - Bouton "Importer" pour éditer un workflow appris - Bouton "Exporter pour Léa" pour rendre un workflow VWB exécutable - Conversion bidirectionnelle core ↔ VWB via learned_workflow_bridge - Liste unifiée dans le chat Léa (merged + dédupliquée) - reload_workflows() sur le streaming server (pas de redémarrage) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:41:34 +01:00
Dom	353c2a347e	feat: floutage auto champs sensibles + fix routing actions fichiers Floutage (conformité AI Act) : - Détection OpenCV des champs de saisie (rectangles clairs avec texte) - Flou gaussien avant stockage/envoi - Activé par défaut (RPA_BLUR_SENSITIVE=true) - <200ms par screenshot, 12 tests Fix actions fichiers VWB : - Pas de wait 5s pour les actions fichiers (inutile) - Routing direct vers agent port 5006 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:24:01 +01:00
Dom	40e5fba86c	feat: outils gestion fichiers dans le VWB (📁 Fichiers) - 5 actions : lister, créer dossier, déplacer, copier, classer par extension - Exécution sur Windows via agent port 5006 - Sécurité chemins (bloque C:\Windows, /etc, etc.) - Propriétés panel + preview canvas pour chaque action Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:05:36 +01:00
Dom	97d708c6f5	fix: replay visuel — fallback coordonnées bbox si template matching échoue - Le proxy injecte x_pct/y_pct depuis le centre du bbox de l'ancre - Si le visual resolve timeout → clic aux coordonnées bbox (pas à 0,0) - Lookup replay_states par machine_id (premier replay fonctionne) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:42:30 +01:00
Dom	58e8bbafff	fix: replay routing — lookup machine_id dans replay_states + auto-inject machine_id - /replay/next cherche dans replay_states par machine_id (pas seulement machine_replay_target) - execute-windows auto-détecte la machine Windows connectée - resolve_target utilise ThreadPool par défaut (pas le GPU executor saturé) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:05:42 +01:00
Dom	4e217e30dd	feat: capture Windows auto-détection OS, chat Léa agrandi, UX améliorée - Capture auto : détecte OS navigateur → capture Windows ou Linux - Timer capture utilise aussi la smart capture - Heartbeat background permanent (même sans session) - Tri screenshots par date (plus de vieilles captures) - Chat Léa : 450x650, polices 11pt, redimensionnable, meilleur contraste - Bouton Exécuter : "Linux" + "Windows" avec feedback visuel - Délai 5s avant replay Windows (temps de réduire le navigateur) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 23:03:53 +01:00
Dom	371db69543	feat: replay visuel Windows opérationnel — template matching + VWB complet - Bouton "Windows" dans VWB pour exécuter sur le PC distant - Template matching OpenCV multi-scale pour localiser les ancres visuelles - Proxy VWB→streaming server avec chargement ancre (thumb, pas full) - Fix executor Windows : mss lazy, result reporting, debug prints - Fix poll replay permanent (sans session active) - Mapping types VWB→executor (click_anchor→click, type_text→type) - CORS streaming server, capture Windows dans VWB - Dédup heartbeats côté client (hash perceptuel) - Mode cloud VLM configurable via RPA_VLM_MODEL - Fix resolve_target : pas de ScreenAnalyzer fallback (trop lent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 18:56:44 +01:00
Dom	97cb2957d5	feat: upload Excel via explorateur de fichier dans le VWB - Bouton "Parcourir..." ouvre l'explorateur natif du navigateur - Upload vers /api/v3/upload-excel, sauvegarde dans data/uploads/ - Nom de table auto-suggéré depuis le nom du fichier Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:17:05 +01:00
Dom	9da804bb6e	feat: import Excel → SQLite + boucle données → UI dans le VWB - ExcelImporter : import .xlsx → SQLite auto (détection types, batch insert) - DBIterator : lecture ligne par ligne avec filtre/tri/limite - VWB actions : "Importer Excel" + "Pour chaque ligne" dans la palette - DAG executor : pré-exécution import, boucle foreach avec injection ${current_row.colonne} dans les étapes dépendantes - 36 tests unitaires Excel/DB (tous passent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:10:51 +01:00
Dom	5e3865d328	feat: DAG executor async + intégration IA/LLM dans le VWB - DAGExecutor : exécution workflow par graphe de dépendances, étapes LLM parallèles, UI séquentielles, injection ${step.result} - LLMActionHandler : analyze_text, translate, extract_data, generate_text via Ollama /api/chat (qwen3-vl:8b, temperature 0.1) - VWB palette : catégorie "IA / LLM" avec 4 actions draggables - VWB propriétés : éditeurs pour chaque action LLM (modèle, prompt, langue) - VWB endpoint : POST /api/v3/workflow/<id>/execute-dag - 37 tests unitaires DAG executor (tous passent) - Fix log spam cache workflows (info → debug) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 22:58:44 +01:00
Dom	cf495dd82f	feat: chat unifié, GestureCatalog, Copilot, Léa UI, extraction données, vérification replay Refonte majeure du système Agent Chat et ajout de nombreux modules : - Chat unifié : suppression du dual Workflows/Agent Libre, tout passe par /api/chat avec résolution en 3 niveaux (workflow → geste → "montre-moi") - GestureCatalog : 38 raccourcis clavier universels Windows avec matching sémantique, substitution automatique dans les replays, et endpoint /api/gestures - Mode Copilot : exécution pas-à-pas des workflows avec validation humaine via WebSocket (approve/skip/abort) avant chaque action - Léa UI (agent_v0/lea_ui/) : interface PyQt5 pour Windows avec overlay transparent pour feedback visuel pendant le replay - Data Extraction (core/extraction/) : moteur d'extraction visuelle de données (OCR + VLM → SQLite), avec schémas YAML et export CSV/Excel - ReplayVerifier (agent_v0/server_v1/) : vérification post-action par comparaison de screenshots, avec logique de retry (max 3) - IntentParser durci : meilleur fallback regex, type GREETING, patterns améliorés - Dashboard : nouvelles pages gestures, streaming, extractions - Tests : 63 tests GestureCatalog, 47 tests extraction, corrections tests existants - Dépréciation : /api/agent/plan et /api/agent/execute retournent HTTP 410, suppression du code hardcodé _plan_to_replay_actions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 10:02:09 +01:00
Dom	4c9a6d293f	feat(vwb): Améliorer outils IA et supprimer fallback statique Backend: - analyser_avec_ia.py: centraliser URL Ollama via os.environ.get() - action_contracts.py: assouplir le contrat ai_analyze_text (mode texte sans ancre visuelle, accepter prompt ou analysis_prompt) - intelligent_executor.py: supprimer le fallback coordonnées statiques quand la vision échoue — renvoyer not_found pour self-healing - workflow.py: ajouter endpoints validate et export-training run.sh: - Corriger les ports (3000 → 3002) et le venv (venv_v3 → .venv) - Lancer run_v4.sh au lieu de l'ancien run.sh Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-17 10:56:17 +01:00
Dom	3ff36e3c79	refactor(audit): Nettoyage dette technique phases 1-4 Phase 1 — Code mort et duplication : - Supprimer catalog_routes.py (-1832 lignes, doublon de v2_vlm) - Mettre à jour app.py et app_lightweight.py vers catalog_routes_v2_vlm - Nettoyer 9 imports inutilisés dans catalog_routes_v2_vlm.py - Supprimer get_required_params inutilisé dans execute.py Phase 2 — Centraliser la configuration : - Ollama URL via os.environ.get() dans verify_text_content.py et extraire_tableau.py - MODEL_PATH relatif au projet + var env UI_DETR_MODEL_PATH dans ui_detection_service.py Phase 3 — Thread-safety de l'exécution : - Ajouter _execution_lock (RLock) pour protéger _execution_state - Remplacer le polling self-healing par threading.Event - Initialiser 'variables' dans le dict initial (plus de création dynamique) - Corriger bare except → except Exception as db_err avec message Phase 4 — Logging minimal : - Ajouter logger dans execute.py, remplacer print() critiques par logger - Configurer RotatingFileHandler (5MB, 3 backups) dans app.py Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-02-17 08:11:45 +01:00
Dom	a27b74cf22	v1.0 - Version stable: multi-PC, détection UI-DETR-1, 3 modes exécution - Frontend v4 accessible sur réseau local (192.168.1.40) - Ports ouverts: 3002 (frontend), 5001 (backend), 5004 (dashboard) - Ollama GPU fonctionnel - Self-healing interactif - Dashboard confiance Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-29 11:23:51 +01:00
Dom	21bfa3b337	feat(vwb): Ajouter SeeClick, Self-Healing interactif et Dashboard confiance ## Nouvelles fonctionnalités ### 1. SeeClick Adapter (visual grounding fallback) - Nouvel adapter pour le modèle SeeClick (HuggingFace) - Intégré dans la chaîne de fallback: CLIP → Template → SeeClick → Static - Localise les éléments GUI à partir de descriptions textuelles ### 2. Self-Healing Interactif - Dialogue qui propose des alternatives quand l'ancre n'est pas trouvée - L'utilisateur peut choisir: candidat alternatif, coords statiques, ou sauter - Nouveaux endpoints: /healing/status, /healing/choose, /healing/candidates - État "waiting_for_choice" pour mettre l'exécution en pause ### 3. Dashboard Confiance (temps réel) - Affiche les scores de confiance pendant l'exécution - Montre: méthode utilisée, distance, taux de succès - Interface pliable en bas à droite - Visible uniquement en mode intelligent/debug ## Fichiers ajoutés - core/detection/seeclick_adapter.py - frontend_v4/src/components/SelfHealingDialog.tsx - frontend_v4/src/components/ConfidenceDashboard.tsx ## Fichiers modifiés - core/detection/__init__.py - backend/services/intelligent_executor.py - backend/api_v3/execute.py - frontend_v4/src/App.tsx - frontend_v4/src/services/api.ts - docs/VISION_RPA_INTELLIGENT.md Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-24 02:34:01 +01:00
Dom	f04f156144	fix(vision): Corriger les seuils CLIP/Template pour éviter les clics erronés Problème résolu: - Le workflow cliquait au mauvais endroit (200-500px de distance) - Les seuils de matching étaient trop permissifs Corrections apportées: - CLIP: MAX_DISTANCE=120px, MIN_SCORE=0.55, MIN_COMBINED=0.5 - Template zonée: MAX_DISTANCE=150px - Template global: MAX_DISTANCE=150px (était 500px) - Ajout de logs détaillés pour debug des candidats rejetés - Désactivation de l'overlay debug (polling intensif inutile) Fichiers modifiés: - intelligent_executor.py: Seuils stricts + logs - execute.py: Logique d'exécution modes basic/intelligent/debug - ui_detection_service.py: Backend UI-DETR-1 - App.tsx: Overlay désactivé - ExecutionOverlay.tsx: URLs API corrigées Documentation: - docs/REFERENCE_VISION_RPA.md: Guide complet de référence Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-24 02:15:04 +01:00
Dom	858e6007f9	feat(vwb-v3): Architecture Thin Client fonctionnelle API = Source de vérité unique (SQLite + Flask) - Backend: API v3 avec session, workflow, capture, execute - Frontend: Vanilla TypeScript, pas de state local - Contrats stricts pour les actions RPA - Drag & drop pour réorganiser les étapes - Insertion d'étapes entre deux existantes - Bibliothèque de captures (sessionStorage) - Exécution avec coordonnées statiques (pyautogui) Fonctionne mais fragile (coordonnées fixes, pas de détection visuelle) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-23 12:07:13 +01:00

24 Commits