rpa_vision_v3

Author	SHA1	Message	Date
Dom	5e0b53cfd1	fix: import config depuis core/executor + auto-load config.txt dans run_agent_v1 - from .config → from ..config (executor.py est dans core/, config dans agent_v1/) - run_agent_v1.py charge config.txt et .env au démarrage (fonctionne sans Lea.bat) - Ajout file logging dans agent_debug.log pour diagnostic Windows Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 13:55:48 +02:00
Dom	e8a8a588c1	fix: boucle de retry infinie — _retry_pending écrasé par l'envoi d'action Bug : _schedule_retry stockait retry_count=N dans _retry_pending, mais l'envoi de l'action (ligne 2173) écrasait avec retry_count=0. Résultat : le retry_count retombait toujours à 0, la condition retry_count < 3 restait vraie → boucle infinie de retries. Corrections : - Ne pas écraser _retry_pending si l'entrée existe déjà (set par _schedule_retry) - Guard de sécurité : extraire retry_count depuis les suffixes _retry de l'action_id Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 11:57:11 +02:00
Dom	18792fd7b4	feat: résolution serveur pour replay Windows + VLM multi-image + métriques Feature 4 — Résolution serveur : - Nouvelle méthode _server_resolve_target() dans executor.py - Cascade : template local → serveur /resolve_target → VLM local (fallback) - Popup handling via serveur aussi - L'agent Windows peut maintenant résoudre les clics via SomEngine+VLM Feature 5 — VLM multi-image : - _resolve_by_som() envoie l'anchor crop en 2ème image au VLM - Le VLM voit les marks numérotés + le crop de l'élément recherché Feature 6 — Métriques de résolution : - resolution_method, resolution_score, resolution_elapsed_ms - Propagés agent → serveur via /replay/result - Résumé en fin de replay (méthodes, score moyen, temps moyen) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 11:37:35 +02:00
Dom	1e8e2dd9f3	fix: nettoyage scripts de déploiement Windows - deploy_windows.py : supprimé window_info dupliqués du manifeste - build_package.sh : exclusion chat_window, shared_state, capture_server, *.md - lea_ui copie uniquement __init__.py + server_client.py - Package résultant : 68 KB (propre, minimal) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 10:17:24 +02:00
Dom	1253a40051	chore: ménage — suppression agent Rust (5.6 GB) + vieux packages déploiement - agent_rust/ supprimé entièrement (on reste sur Python pour Léa) - deploy/build/Lea/ supprimé (package stale avec fichiers obsolètes) - deploy/build_lea_exe.sh supprimé (script PyInstaller Rust, obsolète) - window_info*.py dupliqués retirés du package Windows - __pycache__ nettoyé du deploy Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 10:12:48 +02:00
Dom	a92d04621a	refactor: nettoyage agent + fix SomEngine review (singleton partagé, cache, thread-safe) Nettoyage Windows agent : - Suppression lea_ui inutilisés (chat_widget, overlay, styles, etc. — -1991 lignes) - Suppression window_info*.py dupliqués (racine + core/ — -494 lignes) - build/ + dist/ supprimés (48 MB PyInstaller abandonné, gitignorés) Fix SomEngine (review quality guardian) : - Singleton GPU partagé via get_shared_engine() (1 instance au lieu de 2) - Thread-safe avec threading.Lock (double-checked locking) - Cache SomResult par screenshot_id (max 50, évite YOLO+OCR redondants) - Fuite fichier temp docTR corrigée (finally block) - Chemin YOLO configurable via SOM_YOLO_WEIGHTS env var - Guard som_image None avant VLM - Match texte partiel : len(label) >= 3 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 10:04:27 +02:00
Dom	13390a71e7	fix: SomEngine resolve — raccourci texte + proximité, fallback VLM robuste - Match texte exact avant partiel pour éviter les faux positifs - Disambiguïsation par proximité (center_norm) quand plusieurs matchs - Prompt VLM simplifié (liste labelée, 30 max, JSON concis) - Fallback regex pour extraire un numéro de réponse VLM non-JSON - Résultat : 0.3s par texte vs 5-15s par VLM Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 09:45:20 +02:00
Dom	4c76dca992	feat: intégration SomEngine dans build_replay (Phase 1) et resolve_target (Phase 2) Phase 1 : enrichit chaque clic avec som_element (id, label, bbox) via YOLO+docTR Phase 2 : nouvelle résolution SoM+VLM — SomEngine numérote, VLM identifie le mark 10 tests unitaires ajoutés, conftest unit/ pour le bon path agent_v0 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 09:30:14 +02:00
Dom	2ddccff108	feat: SomEngine — Set-of-Mark avec YOLO + docTR pour détection UI - SomEngine : détecte et numérote tous les éléments UI d'un screenshot - YOLO v8 (OmniParser) : détection icônes/boutons (~15ms GPU) - docTR : OCR pour le texte visible - Annotation visuelle : numéros rouges sur chaque élément - find_element_at(x, y) : trouve l'élément cliqué par coordonnées - Fix Florence-2 / transformers 4.57 incompatibilité (past_key_values) - Testé : 107 éléments détectés sur screenshot Windows 2560x1600 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 08:26:07 +02:00
Dom	3417f09598	feat: auto-stop enregistrement (1h) + packaging Léa collaborateurs - Auto-stop : notification 10 min avant, arrêt automatique après MAX_SESSION_DURATION_S (1h) - Lea.bat : kill des anciens process (python, pythonw, rpa-agent) au démarrage - LISEZMOI : simplifié pour les collaborateurs (pas de replay, juste collecte) - Chat server (5004) vérifié fonctionnel Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 17:26:32 +02:00
Dom	bbe506c63a	feat: contrôle visuel post-action (template matching + VLM fallback) - Screenshots de référence (res_shot_XXXX.png) attachés aux actions click/key_combo - _attach_expected_screenshots() charge les screenshots résultat de l'enregistrement - _verify_visual_state() dans executor : 2 étages de vérification - Étage 1 : template matching rapide (~100ms), score > 0.7 = OK, < 0.3 = FAIL - Étage 2 : VLM compare current vs expected (~4s), MATCH/MISMATCH - Résultat attaché à chaque action (visual_verification dans result) - Note : executor sur Windows (/tmp/executor_win.py) à synchroniser manuellement Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 16:57:56 +02:00
Dom	647aa610fd	feat: popup VLM double-appel, auth Bearer partout, texte AZERTY corrigé - Popup handling via double appel VLM (détection + localisation précise du bouton) - Reconstruction texte depuis raw_keys (numpad /, @ AltGr fusionné) - Clipboard paste pour texte riche, raw_keys pour commandes simples (Win+R) - Skip des release orphelins dans raw_keys (fix menu Démarrer parasite) - Auth Bearer sur toutes les requêtes agent → streaming server - Endpoints /replay/next et /stream/image publics (agent Rust legacy) - alt_gr ajouté dans _MODIFIER_ONLY_KEYS - _key_combo_printable_char détecte ctrl+@ comme caractère imprimable - start.bat tue les anciens process (python + rpa-agent) au démarrage - Heartbeat avec token Bearer dans main.py et deploy/ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 16:45:09 +02:00
Dom	c2dc8f8fe4	fix: worker séparé, VLM-first direct Ollama, popup handler hybride, serveur léger Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Service systemd rpa-worker.service - Le serveur HTTP ne charge plus CLIP/VLM (mode léger) - StreamProcessor._ensure_initialized() désactivé dans le serveur VLM direct depuis l'agent : - L'agent appelle Ollama directement (port 11434, LAN) - Ollama configuré sur 0.0.0.0 (OLLAMA_HOST) - Pas de passage par le serveur streaming (évite le blocage GIL) - Fallback serveur supprimé (VLM direct ou STOP) Popup handler hybride : - VLM identifie le bouton ("Oui", "OK") — pas de coordonnées - Template matching localise le texte sur l'écran (PIL + cv2) - _find_text_on_screen() : rend le texte en image, matchTemplate - _vlm_identify_popup_button() : prompt simple, prefill texte Resolve visuel hybride : - Cascade : template anchor → VLM+template texte → VLM direct (legacy) - _hybrid_vlm_resolve() : VLM identifie + template localise - _template_match_anchor() : match direct crop, seuil 0.80 - Seuil strict 0.90 pour template matching en mode replay Analyse VLM temps réel désactivée : - process_screenshot() ne fait plus de VLM (stockage uniquement) - L'analyse est différée au worker séparé - Le serveur HTTP reste réactif en permanence VLM prefill fix : - num_ctx augmenté (2048 → 8192 pour images 1080p) - bbox_2d au lieu de click_point (plus fiable) - Coordonnées 0-1000 (format natif qwen3-vl) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 12:52:40 +01:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	fe5e0ba83d	feat: sécurité HIGH — token Bearer, validation, rate limiting, headers - Token Bearer auth sur le streaming server (auto-généré ou env var) - Validation actions replay (types, longueurs, coordonnées 0-1) - Rate limiting in-memory (10 replays/min, 200 images/min) - Security headers Flask (nosniff, SAMEORIGIN, XSS) - Validation uploads (50MB max, MIME type) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-19 00:29:54 +01:00
Dom	24a947b51d	perf: 1 appel VLM par screenshot + sélection intelligente + Rust auto-launch Léa Analyse VLM : - 1 seul appel VLM par screenshot au lieu de 30 (~15s vs 6.5min) - Sélection screenshots par hash perceptuel (3-4 utiles sur 12) - Fallback classification individuelle si appel unique échoue - Estimation : ~1min par workflow au lieu de 78min Rust agent : - Léa (Edge mode app) s'ouvre automatiquement au démarrage - Plus besoin de systray pour lancer le chat - Fix URL chat /chat → / Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-19 00:26:29 +01:00
Dom	90ee91caf9	feat: agent Rust complet — systray, chat, enregistrement, floutage (2.4 MB) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 23:18:09 +01:00
Dom	ad7ff3bce4	perf: réduire crops VLM 80→30 + fix bridge learned workflows path - 30 crops suffisent pour les éléments UI principaux - ~6min/screenshot au lieu de 17min (3x plus rapide) - Bridge cherche aussi dans live_sessions/workflows/ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:57:36 +01:00
Dom	5973058f08	feat: unification VWB ↔ Léa — import/export bidirectionnel - Workflows appris par Léa visibles dans le VWB ("Appris par Léa") - Bouton "Importer" pour éditer un workflow appris - Bouton "Exporter pour Léa" pour rendre un workflow VWB exécutable - Conversion bidirectionnelle core ↔ VWB via learned_workflow_bridge - Liste unifiée dans le chat Léa (merged + dédupliquée) - reload_workflows() sur le streaming server (pas de redémarrage) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:41:34 +01:00
Dom	aa39af327f	feat: agent Rust Phase 2 — visual mode (template matching serveur) - visual.rs : resolve via POST /replay/resolve_target - executor.rs : resolve avant chaque clic si visual_mode=true - Fallback blind si matching échoue - Binaire toujours 1.8 MB (pas de nouvelle dépendance) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 22:29:26 +01:00
Dom	757432ee19	feat: agent Rust Phase 1 — POC headless fonctionnel 1527 lignes Rust, compile sans warnings, testé sur Linux. - Capture d'écran (xcap) + JPEG base64 + hash dedup - Heartbeat toutes les 5s vers streaming server - Poll replay + exécution actions (clic, frappe, combos) - Serveur HTTP port 5006 (capture, health, file-action) - Compatible avec le streaming server Python existant Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 20:22:04 +01:00
Dom	792cc2aa9a	docs: plan de migration agent Windows Python → Rust Étude de faisabilité complète : 100% faisable, 0 bloqueur. Crates identifiées pour les 8 fonctionnalités clés. Migration en 5 phases sur 6-10 semaines. Gains : exe unique 10MB, démarrage 200ms, RAM 30MB. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 19:35:41 +01:00
Dom	f340eab628	feat: conformité AI Act — divulgation IA, consentement, rétention, arrêt urgence - Léa se présente comme "assistante basée sur l'intelligence artificielle" - Dialog consentement avant enregistrement (capture écran/clavier) - Rétention logs 180 jours (Article 12 + 26(6)) - Bouton ARRÊT D'URGENCE toujours visible (Article 14) - Transparence mode autonome explicite (Article 50) - Rapport conformité AI Act en français (docs/CONFORMITE_AI_ACT.md) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:57:43 +01:00
Dom	353c2a347e	feat: floutage auto champs sensibles + fix routing actions fichiers Floutage (conformité AI Act) : - Détection OpenCV des champs de saisie (rectangles clairs avec texte) - Flou gaussien avant stockage/envoi - Activé par défaut (RPA_BLUR_SENSITIVE=true) - <200ms par screenshot, 12 tests Fix actions fichiers VWB : - Pas de wait 5s pour les actions fichiers (inutile) - Routing direct vers agent port 5006 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:24:01 +01:00
Dom	40e5fba86c	feat: outils gestion fichiers dans le VWB (📁 Fichiers) - 5 actions : lister, créer dossier, déplacer, copier, classer par extension - Exécution sur Windows via agent port 5006 - Sécurité chemins (bloque C:\Windows, /etc, etc.) - Propriétés panel + preview canvas pour chaque action Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:05:36 +01:00
Dom	97d708c6f5	fix: replay visuel — fallback coordonnées bbox si template matching échoue - Le proxy injecte x_pct/y_pct depuis le centre du bbox de l'ancre - Si le visual resolve timeout → clic aux coordonnées bbox (pas à 0,0) - Lookup replay_states par machine_id (premier replay fonctionne) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:42:30 +01:00
Dom	58e8bbafff	fix: replay routing — lookup machine_id dans replay_states + auto-inject machine_id - /replay/next cherche dans replay_states par machine_id (pas seulement machine_replay_target) - execute-windows auto-détecte la machine Windows connectée - resolve_target utilise ThreadPool par défaut (pas le GPU executor saturé) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 12:05:42 +01:00
Dom	81d2d016ff	fix: replay Windows réparé — machine_replay_target restauré Le fix sécurité avait supprimé _machine_replay_target qui est nécessaire pour router les actions vers la bonne session agent. Session_id vide dans le frontend = auto-détection serveur. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 11:30:04 +01:00
Dom	d4871249ea	feat: capture Windows temps réel via mini serveur HTTP (port 5006) - CaptureServer : serveur HTTP daemon sur l'agent Windows - Capture fraîche mss en ~94ms à chaque requête - Plus de lecture de vieux heartbeats sur disque - Fallback capture locale si agent indisponible - Firewall Windows port 5006 configuré Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 11:20:57 +01:00
Dom	ae65be2555	chore: ajouter agent_v0/ au tracking git (était un repo embarqué) Suppression du .git embarqué dans agent_v0/ — le code est maintenant tracké normalement dans le repo principal. Inclut : agent_v1 (client), server_v1 (streaming), lea_ui (chat client) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 11:12:23 +01:00
Dom	af83552923	fix: corrections critiques sécurité et robustesse Sécurité : - CORS restreint aux origines connues (plus de *) - Clés Flask sécurisées (secrets.token_hex) - .env.local vérifié non commité Robustesse : - Queues replay bornées (max 500 actions, cleanup TTL 1h) - Vol cross-session supprimé dans /replay/next - Backoff exponentiel polling agent (1s → 30s max) - Nettoyage sessions mémoire TTL 24h - Fix fuite file descriptors upload images - Fix exceptions silencieuses compression images Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 10:59:00 +01:00
Dom	5a07e0dee5	feat: Léa répond via LLM — réponses naturelles au lieu de templates - _generate_lea_response() appelle Ollama qwen3:8b avec persona Léa - Fallback templates si LLM indisponible - Intent parser conservé pour la détection d'actions - think=false pour éviter les réponses vides qwen3 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 00:55:06 +01:00
Dom	5d7ef46c93	fix: small talk élargi — coca, bière, fatigue, météo ne lancent plus de tâches - Pattern élargi : boissons, nourriture, météo, fatigue, émotions - Catégorie "mood" avec réponses empathiques - "un coca" → humor au lieu de lancer un workflow - "il fait chaud" → mood au lieu d'execute Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 00:39:25 +01:00
Dom	8d6b49277f	feat: Léa personnalité humaine + fichiers + fix doublon menu - Small talk : café, merci, ça va, qui es-tu → réponses chaleureuses - Bouton 📎 dans le chat pour envoyer des fichiers - Polices 13-15pt, fenêtre 600x800 - Fix doublon "Discuter avec Léa" dans le systray - IntentType.SMALL_TALK avec 7 catégories Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 00:01:04 +01:00
Dom	32c6808afb	feat: Léa humanisée — plus de jargon technique, ton chaleureux - "Workflow" → "tâche" partout - Vouvoiement, ton de collègue bienveillante - Noms de tâches lisibles (Bloc-notes — Écriture et sauvegarde) - Notifications féminisées (Connectée, prête) - Boutons : Apprenez-moi, Lancer, Données, Arrêter, Aide - Intent parser enrichi (langage naturel humain) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 23:36:28 +01:00
Dom	4e217e30dd	feat: capture Windows auto-détection OS, chat Léa agrandi, UX améliorée - Capture auto : détecte OS navigateur → capture Windows ou Linux - Timer capture utilise aussi la smart capture - Heartbeat background permanent (même sans session) - Tri screenshots par date (plus de vieilles captures) - Chat Léa : 450x650, polices 11pt, redimensionnable, meilleur contraste - Bouton Exécuter : "Linux" + "Windows" avec feedback visuel - Délai 5s avant replay Windows (temps de réduire le navigateur) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 23:03:53 +01:00
Dom	8175b39eba	feat: multi-machine + chat Léa Edge mode app Multi-machine : - machine_id auto (hostname_os), configurable via RPA_MACHINE_ID - Sessions/workflows isolés par machine (dossiers séparés) - Replay ciblé par machine (pas de fuite cross-machine) - Endpoint GET /machines pour lister les machines connectées - Léa affiche la machine source des workflows Chat Léa systray : - Edge en mode app (--app=URL) — fenêtre native sans barre d'adresse - Toggle via menu systray "Discuter avec Léa" - Fallback navigateur si Edge absent Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 20:02:45 +01:00
Dom	371db69543	feat: replay visuel Windows opérationnel — template matching + VWB complet - Bouton "Windows" dans VWB pour exécuter sur le PC distant - Template matching OpenCV multi-scale pour localiser les ancres visuelles - Proxy VWB→streaming server avec chargement ancre (thumb, pas full) - Fix executor Windows : mss lazy, result reporting, debug prints - Fix poll replay permanent (sans session active) - Mapping types VWB→executor (click_anchor→click, type_text→type) - CORS streaming server, capture Windows dans VWB - Dédup heartbeats côté client (hash perceptuel) - Mode cloud VLM configurable via RPA_VLM_MODEL - Fix resolve_target : pas de ScreenAnalyzer fallback (trop lent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 18:56:44 +01:00
Dom	dd149c1cbb	feat: VWB panneau droit réorganisé en 3 onglets + galerie bibliothèque - 3 onglets : Propriétés / Capture / Données - Panneau extensible 320px → 480px au clic - Galerie bibliothèque plein écran - Fix port détection UI : 5001 → 5002 - Boutons aide (?) et supprimer (×) toujours visibles sur les nœuds Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 09:47:03 +01:00
Dom	3bd23d6135	fix: ajouter RawSession.from_dict() pour le StreamProcessor Le GraphBuilder ne pouvait pas construire le graphe car from_dict n'existait pas (seulement from_json). Alias avec valeurs par défaut pour les sessions streaming. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 09:06:42 +01:00
Dom	1e18194e31	feat: VWB — aide outil (?), croix suppression, plein écran, zones détection - Bouton ? sur chaque nœud : tooltip avec description + paramètres typés - Croix rouge visible (fix overflow React Flow) - Sélection plein écran avec détection auto des éléments UI - Zones détectées affichées sur l'aperçu de capture - 32 actions documentées en français avec paramètres typés - Pruning candidats VLM : max 80 avant classification (3x plus rapide) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 08:13:46 +01:00
Dom	fb648e730f	chore: consolider venvs — .venv unique avec requirements.txt complet - Tous les paquets (Flask, torch, docTR, CLIP, openpyxl, etc.) dans .venv - requirements.txt généré (168 paquets) - venv_v3 obsolète (les services se relanceront sur .venv via svc.sh) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 07:52:25 +01:00
Dom	edd1c2efdb	fix: classification VLM robuste — skip petits crops, retry, extraction JSON - Skip crops < 40px (deviner type par forme, confidence 0.3) - Retry 1 fois si réponse VLM vide - Extraction JSON robuste : cherche {…} dans le texte, fixe single quotes - Élimine ~70% des appels VLM inutiles sur les petits éléments Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 07:25:00 +01:00
Dom	928b9e1065	feat: import Excel via chat Léa, suppression nœuds VWB, fix temperature 0.1 - Chat Léa : "importe patients.xlsx" → preview → confirmation → table SQLite Bouton 📎 pour upload fichier, "montre les tables", "info table X" - VWB : suppression nœuds via touche Suppr/Backspace + bouton croix rouge - Fix : toutes les températures VLM à 0.1 (qwen3-vl bloque à 0.0) - Fix : capture VWB avec DISPLAY=:1 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-17 07:18:51 +01:00
Dom	97cb2957d5	feat: upload Excel via explorateur de fichier dans le VWB - Bouton "Parcourir..." ouvre l'explorateur natif du navigateur - Upload vers /api/v3/upload-excel, sauvegarde dans data/uploads/ - Nom de table auto-suggéré depuis le nom du fichier Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:17:05 +01:00
Dom	9da804bb6e	feat: import Excel → SQLite + boucle données → UI dans le VWB - ExcelImporter : import .xlsx → SQLite auto (détection types, batch insert) - DBIterator : lecture ligne par ligne avec filtre/tri/limite - VWB actions : "Importer Excel" + "Pour chaque ligne" dans la palette - DAG executor : pré-exécution import, boucle foreach avec injection ${current_row.colonne} dans les étapes dépendantes - 36 tests unitaires Excel/DB (tous passent) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 23:10:51 +01:00
Dom	5e3865d328	feat: DAG executor async + intégration IA/LLM dans le VWB - DAGExecutor : exécution workflow par graphe de dépendances, étapes LLM parallèles, UI séquentielles, injection ${step.result} - LLMActionHandler : analyze_text, translate, extract_data, generate_text via Ollama /api/chat (qwen3-vl:8b, temperature 0.1) - VWB palette : catégorie "IA / LLM" avec 4 actions draggables - VWB propriétés : éditeurs pour chaque action LLM (modèle, prompt, langue) - VWB endpoint : POST /api/v3/workflow/<id>/execute-dag - 37 tests unitaires DAG executor (tous passent) - Fix log spam cache workflows (info → debug) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 22:58:44 +01:00
Dom	ad15237fe0	feat: smart systray Léa (plyer), preflight GPU, fix tests, support qwen3-vl - Smart systray (pystray+plyer) remplace PyQt5 : notifications toast, menu dynamique avec workflows, chat "Que dois-je faire ?", icône colorée - Preflight GPU : check_machine_ready() + @pytest.mark.gpu dans conftest - Correction 63 tests cassés → 0 failed (1200 passed) - Tests VWB obsolètes déplacés vers _a_trier/ - Support qwen3-vl:8b sur GPU (remplace qwen2.5vl:3b) - fix images < 32x32 (Ollama panic) - fix force_json=False (qwen3-vl incompatible) - fix temperature 0.1 (0.0 bloque avec images) - Fix captor Windows : Key.esc, _get_key_name() - Fix LeaServerClient : check_connection, list_workflows format - deploy_windows.py : packaging propre client Windows - VWB : edges visibles (#607d8b) + fitView automatique Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 22:25:12 +01:00
Dom	cf495dd82f	feat: chat unifié, GestureCatalog, Copilot, Léa UI, extraction données, vérification replay Refonte majeure du système Agent Chat et ajout de nombreux modules : - Chat unifié : suppression du dual Workflows/Agent Libre, tout passe par /api/chat avec résolution en 3 niveaux (workflow → geste → "montre-moi") - GestureCatalog : 38 raccourcis clavier universels Windows avec matching sémantique, substitution automatique dans les replays, et endpoint /api/gestures - Mode Copilot : exécution pas-à-pas des workflows avec validation humaine via WebSocket (approve/skip/abort) avant chaque action - Léa UI (agent_v0/lea_ui/) : interface PyQt5 pour Windows avec overlay transparent pour feedback visuel pendant le replay - Data Extraction (core/extraction/) : moteur d'extraction visuelle de données (OCR + VLM → SQLite), avec schémas YAML et export CSV/Excel - ReplayVerifier (agent_v0/server_v1/) : vérification post-action par comparaison de screenshots, avec logique de retry (max 3) - IntentParser durci : meilleur fallback regex, type GREETING, patterns améliorés - Dashboard : nouvelles pages gestures, streaming, extractions - Tests : 63 tests GestureCatalog, 47 tests extraction, corrections tests existants - Dépréciation : /api/agent/plan et /api/agent/execute retournent HTTP 410, suppression du code hardcodé _plan_to_replay_actions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 10:02:09 +01:00
Dom	74a1cb4e03	feat(agent-libre): exécuter les plans LLM sur le PC cible via streaming server Le mode "Agent Libre" envoyait les actions localement (Linux) au lieu du PC Windows. Maintenant les plans LLM sont convertis en actions normalisées et envoyés au streaming server via POST /replay/raw. L'Agent V1 les exécute sur la bonne machine. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 08:41:53 +01:00

1 2 3

111 Commits