rpa_vision_v3

Author	SHA1	Message	Date
Dom	aee64f54b1	feat(security): détection dialogues système Windows + fail-closed Nouveau module system_dialog_guard.py : - Détection UAC, CredUI, SmartScreen, Defender, Driver install - Multi-signal (ClassName UIA, process, title FR/EN, parent_path) - Faux positifs validés (OSIRIS, OBSIUS, MEDSPHERE, Chrome, Excel) Intégration dans executor.py et policy.py : - 6 points de décision (avant click/type/key_combo, VLM, policy) - Pause supervisée au lieu de clic aveugle - Fail-closed en cas d'exception (P0-D audit) - Notification systray + remontée serveur Fix mock test policy engine pour compat _system_dialog_pause=None. 39 + 5 tests unitaires. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:48:00 +02:00
Dom	c77844fa9a	feat(capture_server): auth Bearer + bind localhost + anti-path-traversal - Token obligatoire (RPA_API_TOKEN) sur /capture et /file-action - Bind 127.0.0.1 par défaut, 0.0.0.0 exige token (fail-closed) - /health reste public pour monitoring - VWB backend injecte le Bearer pour les proxys distants - hmac.compare_digest pour comparaison temps constant Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:45 +02:00
Dom	013fe071a2	feat(streamer): purge après ACK + buffering SQLite persistant - Nouveau module persistent_buffer.py (SQLite WAL, thread-safe) - Purge automatique des captures locales après ACK 200 serveur - Drain loop 15s, retry exponentiel, plafonds tentatives - Enum ImageSendResult.{OK, FAILED, FILE_GONE} pour distinguer les cas - FileNotFoundError n'est plus un faux succès (P0-E audit) - 14 tests intégration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:35 +02:00
Dom	203dc00d53	fix: UIA compare les noms d'app au lieu des titres complets "Fichier" dans "*,Ceci est un test – Bloc-notes" était rejeté parce que le titre attendu était "test.txt – Bloc-notes". Maintenant la comparaison extrait le nom d'app (Bloc-notes) et accepte le match si c'est la même application. Résout : "Ajouter un nouvel onglet" bloqué quand un fichier différent est ouvert dans Bloc-notes. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 10:27:08 +02:00
Dom	e9a028134a	feat: blocs conditionnels — skip automatique des dialogues absents Le session_cleaner détecte les dialogues système (Enregistrer sous, Ouvrir, Confirmer, etc.) et marque les actions correspondantes comme conditionnelles. Au replay, si le dialogue n'apparaît pas (ex: Ctrl+S sauve silencieusement car le fichier existe), les actions du dialogue sont skippées automatiquement. Détection basée sur des patterns de noms de dialogues Windows FR/EN. Testé : seul le clic dans "Enregistrer sous" est conditionnel, les actions Bloc-notes/Rechercher/systray restent normales. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 10:20:00 +02:00
Dom	01bba7bc6c	feat: wrong_window déclenche le mode apprentissage au lieu de bloquer Quand la fenêtre attendue ne correspond pas (ex: Ctrl+S a sauvé sans dialogue "Enregistrer sous"), Léa passe en mode capture au lieu de retourner paused_need_help. Si l'humain ne fait rien pendant 10s, l'action est skippée (l'état est considéré déjà atteint). 4 déclencheurs apprentissage maintenant couverts : - retry_failed : grounding + retry échouent - no_screen_change : clic sans effet visible - wrong_window : fenêtre attendue absente - SUPERVISE direct : Policy décide de demander Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 09:27:01 +02:00
Dom	d5285de99c	feat: mode apprentissage — retry échoué + écran inchangé déclenchent la capture humaine Trois chemins vers le mode apprentissage supervisé : 1. Grounding échoue → Policy RETRY → retry échoue → capture humaine 2. Clic visuel sans effet (écran inchangé 3s) → capture humaine 3. Policy SUPERVISE direct → capture humaine La capture enregistre un mini-workflow complet (clics + frappes + combos) jusqu'à Ctrl+Shift+L ou 10s d'inactivité. Correction envoyée au serveur. Testé E2E : workflow Chrome avec résultats Google dynamiques + bandeau cookies — Léa demande l'aide, capture, reprend. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 08:33:57 +02:00
Dom	33c198b827	feat: premier replay E2E + mode apprentissage supervisé Premier replay fonctionnel de bout en bout (Bloc-notes, Chrome). Corrections critiques : - Fix double-lancement agent (Lea.bat start /b + verrou PID) - Sérialisation replay (threading.Lock dans poll_and_execute) - Garde UIA bbox >50% écran (rejet conteneurs "Bureau") - Filtre fenêtres bruit système (systray overflow) - Auto-nettoyage replays bloqués (paused_need_help) Cascade visuelle complète dans session_cleaner : - UIA local (10ms) → template matching (100ms) → serveur docTR/VLM - Nettoyage bureau pré-replay (clic "Afficher le bureau") - Crops 80x80 + vlm_description pour chaque clic Grounding contraint à la fenêtre active : - Capture croppée à la fenêtre au lieu de l'écran entier - Conversion coordonnées fenêtre → écran - Élimine les faux positifs taskbar/systray Mode apprentissage supervisé (SUPERVISE → capture humaine) : - Léa passe en mode capture quand elle est perdue - Capture mini-workflow humain (clics + frappes + combos) - Fin par Ctrl+Shift+L ou timeout inactivité 10s - Correction stockée dans target_memory.db via serveur Deploy Windows complet (grounding.py, policy.py, uia_helper.py). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 07:42:50 +02:00
Dom	02ee2d7b5b	fix: Fenêtre incorrecte strict → pause supervisée pour apprentissage Symétrie avec le fix `7cc03f6f1` (no_screen_change strict → paused_need_help). Avant : si l'agent détecte en pré-vérification que la fenêtre active n'est pas celle attendue, l'erreur retombait dans la branche retry+stop legacy → 3 retries inutiles puis status=error et queue vidée. C'est une violation de feedback_failure_is_learning.md : un échec Léa n'est jamais un "stop avec error", c'est un moment pédagogique. Maintenant : 1. L'agent envoie warning="wrong_window" dans le résultat (en plus de l'error textuel existant). Ajouté aux 2 chemins : - pré-vérif (expected_window_before mismatch, executor.py ~587) - post-vérif strict (expected_window_title timeout, executor.py ~820) 2. Le serveur détecte warning="wrong_window" AVANT la branche retry+stop legacy → redirection vers paused_need_help 3. pause_message explicite : "Je m'attendais à voir la bonne fenêtre mais je vois autre chose. Peux-tu vérifier que l'application est au premier plan ?" 4. Queue intacte (l'action reste en tête, prête à être relancée) 5. log_replay_failure pour l'apprentissage futur Cause fréquente identifiée : les popups de Léa elle-même (notifications, fenêtre de chat) volent le focus Windows pendant le replay → l'app cible perd le premier plan → pré-vérif détecte le mismatch. Bug UX séparé à traiter (Léa ne devrait pas prendre le focus pendant un replay actif). Appliqué aux 2 copies de l'agent (dev + deploy). Tests : 56 E2E + Phase0 passent, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-12 10:41:29 +02:00
Dom	9188bd7df1	fix: masquer la fenêtre console lors du spawn lea_uia.exe sur Windows Ajoute creationflags=CREATE_NO_WINDOW (0x08000000) au subprocess.run() qui appelle lea_uia.exe dans UIAHelper._run(). Sans ce flag, Windows ouvre brièvement une fenêtre cmd noire à CHAQUE appel — et le captor appelle UIA à chaque clic utilisateur pendant l'enregistrement. Symptômes rapportés par Dom : - Flash de fenêtre terminal à chaque clic (visible à l'œil) - Ralentissement de la souris pendant les enregistrements - Pollution des données d'apprentissage : le VLM de post-analyse "voit" la fenêtre cmd et l'enregistre comme élément cliqué (log serveur : "gemma4 a lu l'élément : 'C:\\Lea\\helpers\\lea_uia.exe'") Implémentation portable : - Flag calculé au niveau module : 0x08000000 sur Windows, 0 sur Linux/Mac - getattr(subprocess, "CREATE_NO_WINDOW", ...) pour gérer l'absence de la constante sur Linux - creationflags=0 est un no-op sur Linux, safe Appliqué aux 2 copies synchronisées : - agent_v0/agent_v1/core/uia_helper.py (source active pour l'agent) - core/workflow/uia_helper.py (copie identique) 85 tests in silico OK (29 UIA + 56 E2E/Phase0). Le vrai test c'est Dom qui refait un enregistrement et vérifie qu'il n'y a plus de flash de terminal. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 22:18:11 +02:00
Dom	b92cb9db03	feat: Phase 1 apprentissage — greffe TargetMemoryStore sur V4 Greffe minimale du mécanisme d'apprentissage persistant (Fiche #18, target_memory_store.py) sur le pipeline streaming V4 sans toucher à V3. Architecture (docs/PLAN_APPRENTISSAGE_LEA.md) : - Lookup mémoire AVANT la cascade résolution coûteuse OCR/template/VLM dans _resolve_target_sync → hit = <10ms, miss = overhead zéro - Record APRÈS validation post-condition (title_match strict) dans /replay/result → 2 succès → cristallisation par répétition - Single source of truth : l'agent remplit report.actual_position avec les coords effectivement cliquées, le serveur les lit directement. Pas de cache intermédiaire (option C du plan). Signature écran V4 : sha256(normalize(window_title))[:16]. Robuste aux données variables, faux positifs rattrapés par le post-cond qui décrémente la fiabilité via record_failure(). Fichiers : - agent_v0/server_v1/replay_memory.py : nouveau wrapper 316 lignes exposant compute_screen_sig/memory_lookup/record_success/failure, lazy-init du store, normalisation texte stable, garde sanity coords - agent_v0/server_v1/resolve_engine.py : lookup mémoire en tête de _resolve_target_sync (30 lignes) - agent_v0/server_v1/replay_engine.py : _create_replay_state stocke une copie slim des actions (sans anchor base64) pour retrouver le target_spec par current_action_index - agent_v0/server_v1/api_stream.py : 4 callers passent actions=..., record success/failure dans /replay/result lit actual_position du rapport (click-only), correction du commentaire Pydantic - agent_v0/agent_v1/core/executor.py : remplit result["actual_position"] après self._click(), transmis dans le report de poll_and_execute Tests : 56 E2E + Phase0 passent, zéro régression. Cycle Phase 1 validé en simulation : miss → record → miss → record → HIT au 3ème passage. Le deploy copy executor.py a une divergence pré-existante de 1302 lignes non committées — traité séparément lors du cleanup prochain. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 21:08:14 +02:00
Dom	e66629ce1a	fix: filtre UIA-aware + polling pré-vérif tolérant Filtre d'événements parasites basé sur la CIBLE UIA : - Un clic n'est filtré que si son uia_snapshot indique que l'élément cliqué (ou un parent) est dans la fenêtre de Léa. - Avant : on filtrait sur window.title qui pouvait être "Lea" même quand le clic visait la taskbar (Léa au premier plan). - Après : on regarde où va VRAIMENT le clic via parent_path UIA. Extraction du expected_window depuis le parent_path UIA : - Priorité au nom de la fenêtre racine du parent_path (plus fiable). - Fallback sur window.title si pas de snapshot UIA ou pas de racine. - Les fenêtres Léa sont neutralisées (effective_title=""). Pré-vérif avec polling tolérant (executor.py) : - 5 tentatives avec 300ms entre chaque (total 1.5s max). - Ignore les transitions "unknown_window" et fenêtre Léa. - Évite les faux négatifs sur fenêtres en cours de changement. Note : le filtrage reste basé sur des heuristiques. Un tri intelligent par gemma4 au build reste à implémenter pour gérer les workflows enregistrés avec des actions parasites (mail, chat, etc.). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 14:25:40 +02:00
Dom	cecdf417b7	fix: contrôle strict des étapes + routage par machine_id Corrections critiques après test E2E qui montrait des clics au mauvais endroit : 1. Routage par machine_id (api_stream.py) Quand 2 machines partagent le même session_id (agent_demo_user), les actions d'un replay pour la VM ne doivent PLUS être distribuées au PC physique. Vérification que le replay_state appartient bien à la machine qui poll avant de consommer la queue. 2. IRBuilder extrait expected_window_before/after (ir_builder.py) Pour chaque action click/type/key_combo, stocke le titre de la fenêtre au moment du clic (before) et le titre du prochain événement (after). Ces champs alimentent le contrôle strict au runtime. 3. ExecutionCompiler crée SuccessCondition title_match (execution_compiler.py) Quand expected_window_after est défini, crée une condition de succès STRICTE avec method="title_match" et expected_title. Plus de simple "l'écran a changé" — on vérifie la fenêtre résultante. 4. Runner propage expected_window_before et success_strict Le flag success_strict indique à l'agent que le contrôle post-action DOIT être strict (STOP sur mismatch au lieu de warning). 5. UIA strict sur parent_path (executor.py) _resolve_via_uia_local REJETTE un match si l'élément trouvé n'est pas dans la bonne fenêtre parente (évite ex: "Rechercher" taskbar confondu avec "Rechercher" explorateur). 6. Pré/post vérif stricte et bloquante (executor.py) - expected_window_before lu en priorité depuis l'action (plan V4) - Post-vérif : si success_strict=True et timeout, result.success=False → le replay s'arrête au lieu de continuer avec des warnings. Validé sur la VM : - Le replay s'arrête proprement quand l'étape 2 aboutit dans "Propriétés de Internet" au lieu de "blocnote.txt - Bloc-notes" - Plus de clics en aveugle / saisie au mauvais endroit Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 14:05:23 +02:00
Dom	56e3cc052a	feat: agent Windows consomme UIA — capture + résolution Câblage agent Windows pour le pipeline V4 : captor.py — capture UIA pendant l'enregistrement - _inject_uia_snapshot() appelé après chaque clic - Ajoute evt['uia_snapshot'] = {name, control_type, parent_path, ...} - Non-bloquant : fallback silencieux si helper absent - ~10-20ms par clic, pas de ralentissement perceptible executor.py — résolution UIA locale au replay - _resolve_via_uia_local() : appelle lea_uia.exe find via UIAHelper - Court-circuit prioritaire avant le GroundingEngine serveur - Activé quand resolve_order[0] == "uia" et target_spec.uia_target présent - Coordonnées pixel-perfect (bounding_rect → center) - Fallback transparent vers le grounding serveur si UIA échoue uia_helper.py copié dans agent_v1/core/ (wrapper Python pour lea_uia.exe) Auto-détection du binaire dans C:\Lea\helpers\lea_uia.exe Singleton partagé get_shared_helper() Déployé et validé sur la VM Windows : - query_at(100,100) → "Bureau 1" en 10ms depuis Python - Binaire lea_uia.exe trouvé et fonctionnel - Les 3 modules Python sont dans C:\Lea\agent_v1\core\ Ce qui est maintenant possible (après redémarrage de Léa sur la VM) : - Enregistrer un workflow : chaque clic aura un uia_snapshot - Compiler via /workflow/compile : plan V4 avec stratégie UIA primaire - Rejouer via /replay/plan : l'agent utilise UIA (10-20ms) au lieu de VLM (2-5s) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 11:18:25 +02:00
Dom	42d49dd8bd	feat: Léa personnalité — langage métier multi-domaines Aspect 4/4 Léa : Léa parle le langage du métier, pas du robot. DomainContext enrichi avec 5 domaines : - tim_codage : CIM-10, CCAM, GHM, DP/DAS (enrichi) - comptabilite : factures HT/TVA/TTC, OCR, lettrage, PCG - rh_paie : bulletins, DSN, brut/net, congés, IJSS - stocks_logistique : BC/BL/BR, SKU, inventaires, picking - generic : fallback Nouvelle API DomainContext : - summarize_action(action, params) — click "DP" → "saisir le diagnostic principal" - pose_clarification_question(context) — question pertinente quand Léa bloque - describe_workflow_outcome(...) — rapport final en langage métier Exemples : TIM : "J'ai codé 14 dossiers sur 15. 1 en attente — codes CIM-10 ambigus." Compta : "Je ne trouve pas le champ montant de TVA. C'est bien la facture F2026-0145 ?" Intégration ui/messages.py : - Import lazy (pas de dépendance circulaire) - formatter_cible_non_trouvee utilise les templates de clarification métier - Rétro-compat : tous les anciens appels sans domain_id fonctionnent 47 nouveaux tests, 0 régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:01:52 +02:00
Dom	a6eb4c168f	feat: Léa UX — messages français naturels + feedback temps réel Aspect 1/4 de Léa (agent Windows) : rendre Léa humaine. Nouveaux modules : - agent_v1/ui/messages.py : 11 formatters (cible non trouvée, mauvaise fenêtre, écran inchangé, connexion, workflow, retry, ralentissement, erreur générique) - agent_v1/ui/activity_panel.py : panneau tkinter lazy avec état courant, action, progression X/Y, temps écoulé, 7 états (OBSERVE/CHERCHE/AGIT/VERIFIE...) Hiérarchie de notifications : - INFO (4s, vert) — début workflow, étape en cours - ATTENTION (7s, orange) — retry, ralentissement - BLOCAGE (15s, rouge, persistent, bypass rate-limit) — cible introuvable, mauvaise fenêtre Transformations de messages : AVANT : "target_not_found: dans *bonjour, – Bloc-notes" APRÈS : "Léa a besoin d'aide" "Je ne trouve pas « bonjour » dans Bloc-notes. Peux-tu cliquer dessus toi-même ? Je reprends ensuite." Robustesse : - Détection fenêtre Léa via regex word-boundaries (évite cléa.txt, leapfrog.exe) - Centralisée dans messages.est_fenetre_lea() — source unique de vérité - Noop stub universel via __getattr__ (plus besoin de lister les méthodes) - Thread-safe (RLock + snapshots immutables) - Fallback silencieux si tkinter/plyer absent 101 nouveaux tests, aucune régression. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:42:01 +02:00
Dom	99041f0117	feat: pipeline complet MACRO/MÉSO/MICRO — Critic, Observer, Policy, Recovery, Learning, Audit Trail, TaskPlanner Architecture 3 niveaux implémentée et testée (137 tests unitaires + 21 visuels) : MÉSO (acteur intelligent) : - P0 Critic : vérification sémantique post-action via gemma4 (replay_verifier.py) - P1 Observer : pré-analyse écran avant chaque action (api_stream.py /pre_analyze) - P2 Grounding/Policy : séparation localisation (grounding.py) et décision (policy.py) - P3 Recovery : rollback automatique Ctrl+Z/Escape/Alt+F4 (recovery.py) - P4 Learning : apprentissage runtime avec boucle de consolidation (replay_learner.py) MACRO (planificateur) : - TaskPlanner : comprend les ordres en langage naturel via gemma4 (task_planner.py) - Contexte métier TIM/CIM-10 pour les hôpitaux (domain_context.py) - Endpoint POST /api/v1/task pour l'exécution par instruction Traçabilité : - Audit trail complet avec 18 champs par action (audit_trail.py) - Endpoints GET /audit/history, /audit/summary, /audit/export (CSV) Grounding : - Fix parsing bbox_2d qwen2.5vl (pixels relatifs, pas grille 1000x1000) - Benchmarks visuels sur captures réelles (3 approches : baseline, zoom, Citrix) - Reproductibilité validée : variance < 0.008 sur 10 itérations Sécurité : - Tokens de production retirés du code source → .env.local - Secret key aléatoire si non configuré - Suppression logs qui leakent les tokens Résultats : 80% de replay (vs 12.5% avant), 100% détection visuelle Citrix JPEG Q20 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 21:03:25 +02:00
Dom	8a1dfc6e8b	feat: acteur gemma4 — décide PASSER/EXECUTER/STOPPER quand target_not_found Quand le magnétoscope ne trouve pas la cible, au lieu de la pause supervisée, gemma4 (Docker port 11435, think=True) reçoit le contexte (action prévue + fenêtre active) et décide : - PASSER : le résultat est déjà atteint (onglet actif, dialog ouvert) - STOPPER : état incohérent (mauvaise app) - EXECUTER : fallback vers la pause supervisée Testé : gemma4 décide PASSER quand l'onglet est déjà actif (5s). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 21:05:37 +02:00
Dom	3bcf59e16f	fix: message notification humain (plus de "yolo") + description cible améliorée La description de la cible dans les notifications et logs utilise by_text et window_title au lieu de by_role="yolo" qui n'a pas de sens pour l'utilisateur. Testé : gemma4 en mode texte (CPU, 0.2s) prend la décision "PASSER" quand l'onglet est déjà actif. Base pour l'acteur intelligent. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 20:52:34 +02:00
Dom	b09a3df054	fix: _app_name déplacé hors du bloc if (scope error)	2026-04-05 11:29:51 +02:00
Dom	6d4ff4f215	fix: vérification par nom d'APPLICATION, pas par titre exact Compare 'Bloc-notes' (après le –) au lieu du titre complet. 'blocnote.txt – Bloc-notes' et 'voiture.txt – Bloc-notes' sont la même app → pré-vérif et post-vérif passent. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 09:16:48 +02:00
Dom	20b74286f7	feat: polling titre fenêtre au lieu de wait fixe (post-vérification) Après chaque clic, poll le titre de la fenêtre active toutes les 300ms jusqu'à ce qu'il corresponde au titre attendu (max 10s). 100% visuel — pas de wait arbitraire. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 08:49:48 +02:00
Dom	a1c97504ab	feat: Phase 1 acteur — pré/post vérification titre fenêtre Pré-vérification : avant chaque clic, vérifie que le titre de la fenêtre active correspond à celui de l'enregistrement. Stop si mismatch. Post-vérification : après chaque clic, vérifie que le titre a changé vers expected_window_title (titre du prochain clic). Warning si mismatch. expected_window_title enrichi dans build_replay depuis la séquence des clics. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-05 00:09:08 +02:00
Dom	a74056ca22	feat: anti-détection robot — Bézier mouse + frappe char-by-char Pour les environnements Citrix avec détection de robots : - Souris : courbe de Bézier quadratique avec déviation aléatoire et vitesse variable (25 étapes, plus lent début/fin) - Texte : frappe caractère par caractère via KeyCode.from_char() avec délai aléatoire 40-120ms (pas de copier-coller) - Plus de presse-papiers (Ctrl+V détectable) Annulation du fix raw_keys→clipboard (plus nécessaire). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 16:25:43 +02:00
Dom	6937b94f2a	fix: 3 corrections — crop 80px, email AZERTY (@), icônes anchor match 1. Crop réduit de 150x150 à 80x80 (config + fallback serveur) Plus discriminant pour les icônes de barre de titre 2. Email AZERTY : supprimer raw_keys quand le texte contient des chars fusionnés depuis key_combos (@ de AltGr) → copier-coller Le @ était perdu car absent des raw_keys individuels 3. Anchor match : template matching sur screenshot entier puis élément SomEngine le plus proche (max 100px) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 16:21:02 +02:00
Dom	5ceee9c393	fix: cascade serveur-first — SomEngine avant template matching Le template matching compare des pixels et donne des faux positifs quand l'écran n'est pas dans le même état que l'enregistrement. SomEngine + VLM comprend sémantiquement ce qu'on cherche. Nouvelle cascade : 1. Serveur SomEngine + VLM (compréhension sémantique) 2. Template matching local (fallback si serveur down) 3. VLM local (fallback dev/test) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 14:08:21 +02:00
Dom	5e0b53cfd1	fix: import config depuis core/executor + auto-load config.txt dans run_agent_v1 - from .config → from ..config (executor.py est dans core/, config dans agent_v1/) - run_agent_v1.py charge config.txt et .env au démarrage (fonctionne sans Lea.bat) - Ajout file logging dans agent_debug.log pour diagnostic Windows Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 13:55:48 +02:00
Dom	18792fd7b4	feat: résolution serveur pour replay Windows + VLM multi-image + métriques Feature 4 — Résolution serveur : - Nouvelle méthode _server_resolve_target() dans executor.py - Cascade : template local → serveur /resolve_target → VLM local (fallback) - Popup handling via serveur aussi - L'agent Windows peut maintenant résoudre les clics via SomEngine+VLM Feature 5 — VLM multi-image : - _resolve_by_som() envoie l'anchor crop en 2ème image au VLM - Le VLM voit les marks numérotés + le crop de l'élément recherché Feature 6 — Métriques de résolution : - resolution_method, resolution_score, resolution_elapsed_ms - Propagés agent → serveur via /replay/result - Résumé en fin de replay (méthodes, score moyen, temps moyen) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 11:37:35 +02:00
Dom	a92d04621a	refactor: nettoyage agent + fix SomEngine review (singleton partagé, cache, thread-safe) Nettoyage Windows agent : - Suppression lea_ui inutilisés (chat_widget, overlay, styles, etc. — -1991 lignes) - Suppression window_info*.py dupliqués (racine + core/ — -494 lignes) - build/ + dist/ supprimés (48 MB PyInstaller abandonné, gitignorés) Fix SomEngine (review quality guardian) : - Singleton GPU partagé via get_shared_engine() (1 instance au lieu de 2) - Thread-safe avec threading.Lock (double-checked locking) - Cache SomResult par screenshot_id (max 50, évite YOLO+OCR redondants) - Fuite fichier temp docTR corrigée (finally block) - Chemin YOLO configurable via SOM_YOLO_WEIGHTS env var - Guard som_image None avant VLM - Match texte partiel : len(label) >= 3 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-31 10:04:27 +02:00
Dom	3417f09598	feat: auto-stop enregistrement (1h) + packaging Léa collaborateurs - Auto-stop : notification 10 min avant, arrêt automatique après MAX_SESSION_DURATION_S (1h) - Lea.bat : kill des anciens process (python, pythonw, rpa-agent) au démarrage - LISEZMOI : simplifié pour les collaborateurs (pas de replay, juste collecte) - Chat server (5004) vérifié fonctionnel Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 17:26:32 +02:00
Dom	647aa610fd	feat: popup VLM double-appel, auth Bearer partout, texte AZERTY corrigé - Popup handling via double appel VLM (détection + localisation précise du bouton) - Reconstruction texte depuis raw_keys (numpad /, @ AltGr fusionné) - Clipboard paste pour texte riche, raw_keys pour commandes simples (Win+R) - Skip des release orphelins dans raw_keys (fix menu Démarrer parasite) - Auth Bearer sur toutes les requêtes agent → streaming server - Endpoints /replay/next et /stream/image publics (agent Rust legacy) - alt_gr ajouté dans _MODIFIER_ONLY_KEYS - _key_combo_printable_char détecte ctrl+@ comme caractère imprimable - start.bat tue les anciens process (python + rpa-agent) au démarrage - Heartbeat avec token Bearer dans main.py et deploy/ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-30 16:45:09 +02:00
Dom	c2dc8f8fe4	fix: worker séparé, VLM-first direct Ollama, popup handler hybride, serveur léger Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Service systemd rpa-worker.service - Le serveur HTTP ne charge plus CLIP/VLM (mode léger) - StreamProcessor._ensure_initialized() désactivé dans le serveur VLM direct depuis l'agent : - L'agent appelle Ollama directement (port 11434, LAN) - Ollama configuré sur 0.0.0.0 (OLLAMA_HOST) - Pas de passage par le serveur streaming (évite le blocage GIL) - Fallback serveur supprimé (VLM direct ou STOP) Popup handler hybride : - VLM identifie le bouton ("Oui", "OK") — pas de coordonnées - Template matching localise le texte sur l'écran (PIL + cv2) - _find_text_on_screen() : rend le texte en image, matchTemplate - _vlm_identify_popup_button() : prompt simple, prefill texte Resolve visuel hybride : - Cascade : template anchor → VLM+template texte → VLM direct (legacy) - _hybrid_vlm_resolve() : VLM identifie + template localise - _template_match_anchor() : match direct crop, seuil 0.80 - Seuil strict 0.90 pour template matching en mode replay Analyse VLM temps réel désactivée : - process_screenshot() ne fait plus de VLM (stockage uniquement) - L'analyse est différée au worker séparé - Le serveur HTTP reste réactif en permanence VLM prefill fix : - num_ctx augmenté (2048 → 8192 pour images 1080p) - bbox_2d au lieu de click_point (plus fiable) - Coordonnées 0-1000 (format natif qwen3-vl) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 12:52:40 +01:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	fe5e0ba83d	feat: sécurité HIGH — token Bearer, validation, rate limiting, headers - Token Bearer auth sur le streaming server (auto-généré ou env var) - Validation actions replay (types, longueurs, coordonnées 0-1) - Rate limiting in-memory (10 replays/min, 200 images/min) - Security headers Flask (nosniff, SAMEORIGIN, XSS) - Validation uploads (50MB max, MIME type) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-19 00:29:54 +01:00
Dom	f340eab628	feat: conformité AI Act — divulgation IA, consentement, rétention, arrêt urgence - Léa se présente comme "assistante basée sur l'intelligence artificielle" - Dialog consentement avant enregistrement (capture écran/clavier) - Rétention logs 180 jours (Article 12 + 26(6)) - Bouton ARRÊT D'URGENCE toujours visible (Article 14) - Transparence mode autonome explicite (Article 50) - Rapport conformité AI Act en français (docs/CONFORMITE_AI_ACT.md) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:57:43 +01:00
Dom	353c2a347e	feat: floutage auto champs sensibles + fix routing actions fichiers Floutage (conformité AI Act) : - Détection OpenCV des champs de saisie (rectangles clairs avec texte) - Flou gaussien avant stockage/envoi - Activé par défaut (RPA_BLUR_SENSITIVE=true) - <200ms par screenshot, 12 tests Fix actions fichiers VWB : - Pas de wait 5s pour les actions fichiers (inutile) - Routing direct vers agent port 5006 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:24:01 +01:00
Dom	40e5fba86c	feat: outils gestion fichiers dans le VWB (📁 Fichiers) - 5 actions : lister, créer dossier, déplacer, copier, classer par extension - Exécution sur Windows via agent port 5006 - Sécurité chemins (bloque C:\Windows, /etc, etc.) - Propriétés panel + preview canvas pour chaque action Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 16:05:36 +01:00
Dom	d4871249ea	feat: capture Windows temps réel via mini serveur HTTP (port 5006) - CaptureServer : serveur HTTP daemon sur l'agent Windows - Capture fraîche mss en ~94ms à chaque requête - Plus de lecture de vieux heartbeats sur disque - Fallback capture locale si agent indisponible - Firewall Windows port 5006 configuré Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 11:20:57 +01:00
Dom	ae65be2555	chore: ajouter agent_v0/ au tracking git (était un repo embarqué) Suppression du .git embarqué dans agent_v0/ — le code est maintenant tracké normalement dans le repo principal. Inclut : agent_v1 (client), server_v1 (streaming), lea_ui (chat client) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-18 11:12:23 +01:00

39 Commits