rpa_vision_v3

Author	SHA1	Message	Date
Dom	65da557310	feat(qw4): hook safety_checks_provider + extension /replay/resume avec acquittements Some checks failed tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de safety_checks, checks_acknowledged, pause_reason, pause_payload (audit trail). Branche supervisée pause_for_human : - appel build_pause_payload() avant bascule paused_need_help - log [BUS] lea:safety_checks_generated (count, sources) - fallback safe sur exception (pause sans checks plutôt que crash) - déclenchement si safety_level/safety_checks déclarés OU execution_mode != autonomous - sinon comportement legacy (skip silencieux) POST /replay/resume : - accepte body { acknowledged_check_ids: [...] } - vérifie tous les checks required acquittés, sinon 400 required_checks_missing - stocke checks_acknowledged comme audit trail - nettoie safety_checks/pause_payload après reprise Proxy VWB /api/v3/replay/resume → streaming /replay/{id}/resume (forward bearer token + acknowledged_check_ids). Backward 100% : workflows sans safety_checks → resume sans acquittement requis. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:45:22 +02:00
Dom	ca0b436a61	feat(qw2): hook LoopDetector dans api_stream + extension replay_state Some checks failed tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 17s Details tests / Tests sécurité (critique) (push) Has been skipped Details replay_state enrichi de _screenshot_history (5 dernières images PIL) et _action_history (5 dernières signatures action). report_action_result : - met à jour les deux anneaux après chaque action - évalue le LoopDetector (singleton lazy avec _clip_embedder serveur) - si detected → bascule paused_need_help avec pause_reason="loop_detected" et bus event lea:loop_detected (signal + evidence) Tous les chemins d'erreur (embedder absent, OOM, exception) loggent et laissent le replay continuer — aucun blocage par la couche détection. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 23:25:04 +02:00
Dom	fae95c5366	feat(qw1): capture par monitor + propagation offsets dans grounding cascade _capture_screen() accepte un monitor_idx optionnel (None = composite legacy). Index logique 0..N-1 mappé sur mss.monitors[idx+1] (mss[0] = composite). Les 3 niveaux de grounding (OCR, UI-TARS, VLM) propagent l'offset retourné par la capture pour traduire les coordonnées locales monitor en coordonnées absolues écran (correct pour pyautogui.click). find_element_on_screen() accepte monitor_idx et le forwarde aux 3 niveaux. Backward 100% : monitor_idx=None partout → comportement strictement actuel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 22:55:04 +02:00
Dom	964856ab30	feat(workflow): variables runtime + extract_text serveur + t2a_decision LLM Pipeline streaming étendu pour supporter des actions exécutées entièrement côté serveur (jamais transmises à l'Agent V1) qui produisent des variables réutilisables dans les steps suivants via templating {{var}} ou {{var.field}}. == Variables d'exécution == - replay_state["variables"] : Dict[str, Any] initialisé vide à la création - _resolve_runtime_vars() : résout {{var}} et {{var.field}} récursivement dans str/dict/list. Variables absentes laissées intactes. - /replay/next applique la résolution sur l'action AVANT toute interception ou envoi à l'Agent V1. == Boucle d'exécution serveur == - _SERVER_SIDE_ACTION_TYPES = {"extract_text", "t2a_decision"} - /replay/next pop+execute en boucle ces actions jusqu'à trouver une action visuelle (à transmettre Agent V1) ou un pause_for_human (qui bloque). - Latence acceptable : t2a_decision = 5-10s côté serveur, l'Agent V1 attend la réponse HTTP. == Action extract_text == - Handler côté serveur réutilisant le dernier heartbeat (max 5s d'âge) - core/llm/ocr_extractor.py : EasyOCR fr+en singleton + extract_text_from_image - Stockage dans replay_state["variables"][output_var] - Robuste : pas de heartbeat → variable = "" + log warning, pipeline continue == Action t2a_decision == - core/llm/t2a_decision.py : refactor de demo_app.py query_model en module importable. Prompt expert DIM T2A/PMSI, qwen2.5:7b par défaut (100% bench). - Handler côté serveur appelle analyze_dpi(input_template_resolved) - Stockage du JSON décision dans replay_state["variables"][output_var] - Erreurs (Ollama down, parse) → variable = INDETERMINE + _error, pipeline continue == VWB UI == - types.ts : nouveau type 't2a_decision' (icône 🧠 catégorie logic) - extract_text refondu : needsAnchor=false, paramètre output_var (au lieu de variable_name legacy — bridge accepte les deux pour compat) - Bridge VWB→core : passthrough des deux types + paramètres préservés == Tests == - tests/integration/test_t2a_extract.py : 25 tests verts - templating runtime (8 tests) - handler extract_text (3 tests, OCR mocké) - handler t2a_decision (3 tests, analyze_dpi mocké) - edge → action normalisée (2 tests) - bridge VWB → core (5 tests) - workflow chain extract→t2a→pause→clic (1 test) Total branche : 82/82 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 22:47:31 +02:00
Dom	0e6e61f2b1	feat(workflow): action 'pause_for_human' — pause supervisée scriptée dans VWB Nouvelle action native VWB qui force le replay à basculer en paused_need_help avec un message custom. Quand Léa atteint cette étape, elle ne tente pas d'exécuter — elle pose immédiatement le state, ce qui déclenche la bulle interactive ChatWindow (J3.5) avec boutons Continuer / Annuler. Asset démo majeur GHT Sud 95 : permet de scénariser le moment "Léa doute" au bon endroit dans le workflow, sans dépendre d'un échec aléatoire. Chaîne complète : - VWB UI (types.ts) : nouvelle entrée ACTIONS catégorie 'logic', icône ⏸, paramètre 'message' éditable (textarea). - Bridge VWB → core (learned_workflow_bridge.py) : passthrough du type + préservation du message dans parameters. - Pipeline replay (replay_engine.py) : type ajouté à _ALLOWED_ACTION_TYPES, conversion edge → action normalisée préserve le message. - Streaming server (api_stream.py /replay/next) : interception avant envoi à l'Agent V1 → bascule state en paused_need_help avec pause_message, retourne {action: None, replay_paused: True}. - L'action n'est jamais transmise à l'Agent V1 — pure logique serveur. 10 nouveaux tests pytest. Total branche : 57/57 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 16:37:46 +02:00
Dom	41c1250c99	feat(lea): bulles 'Léa exécute' stylisées + templates par event J3.4 — distinction visuelle entre : - Bulles chat normales (fond bleu clair, prefixe 💬, taille standard) - Bulles d'action Léa (fond gris clair, encadré subtil, icône sémantique en couleur, libellé court, métadonnées discrètes en pied) - Bulle paused supervisée (jaune, boutons interactifs — déjà en J3.5) Templates de libellés volontairement neutres : le contexte métier (UHCD, peakflow, J12.1, IPP 25003284…) provient des payloads émis par le pipeline côté serveur, pas de hardcoding dans le client. Mappage events → bulles : lea:action_started ▶ bleu "Démarrage : {workflow}" lea:action_progress ⋯ bleu "{step}" ou "Étape {current}/{total}" lea:done ✓ vert / ✗ rouge selon success lea:need_confirm ? bleu "{action.description}" lea:step_result ✓ / ✗ / · selon status lea:resumed → vert "Reprise" lea:resume_acked (silencieux côté UI) lea:abort_acked (silencieux côté UI) événement inconnu · gris fallback neutre 18 nouveaux tests pytest (templates + extract_meta). Total branche : 47/47 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:18:52 +02:00
Dom	2af3bc3b93	feat(lea): bulle paused_need_help interactive — asset démo majeur Quand Léa bascule en pause supervisée (event 'lea:paused'), affichage d'une bulle dédiée dans ChatWindow avec encadré orangé, raison de la pause, et deux boutons Continuer/Annuler. C'est le moment qui incarne la différence RPA classique vs Léa devant Carvella : Léa SAIT qu'elle ne sait pas et demande de l'aide. Architecture (canal SocketIO bidirectionnel, pas de nouvel endpoint streaming) : ChatWindow ──[lea:replay_resume]──> agent_chat ──POST /resume──> streaming ChatWindow ──[lea:replay_abort ]──> agent_chat (running=False local) Composants ajoutés : - agent_chat/app.py : handlers 'lea:replay_resume' / 'lea:replay_abort' + acks 'lea:resume_acked' / 'lea:abort_acked' pour feedback côté client - network/feedback_bus.py : méthodes resume_replay() / abort_replay() avec helper _safe_emit (silencieux + retourne bool succès) - ui/chat_window.py : palette PAUSED_*, _add_paused_bubble(), _render_paused_bubble(), _close_active_paused_bubble() (auto-fermeture sur lea:resumed/done), _on_paused_resume/abort 8 nouveaux tests pytest (4 handlers serveur + 4 méthodes client). Total branche : 29/29 verts. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 10:08:32 +02:00
Dom	41eba898c0	feat(agent_v1): FeedbackBusClient — client SocketIO pour bus 'lea:' Consomme les events 'lea:' émis par agent_chat (port 5004) et les dispatche vers un callback fourni par ChatWindow (J3.3 à venir). Caractéristiques : - Connexion en thread daemon (non-bloquant pour la mainloop tkinter) - Reconnect auto illimité (delay 2s → 30s exponentiel) - Auth Bearer Token via header HTTP au handshake - Fail-safe : connect échoué, callback qui raise, disconnect qui raise → tout silencieusement loggé, ChatWindow continue normalement 13 tests pytest verts (tests/integration/test_feedback_bus_client.py). Pas de connexion réseau réelle dans les tests (python-socketio mocké). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 08:43:26 +02:00
Dom	5e31cdf666	feat(agent_chat): bus feedback Léa 'lea:' derrière flag LEA_FEEDBACK_BUS Surface d'observation pour bulles temps réel ChatWindow (J2 démo GHT Sud 95). - Helper _emit_lea(event, payload): no-op silencieux si flag off - Helper _emit_dual(legacy, lea, payload): émet event existant + alias 'lea:' - Détection paused_need_help dans _poll_replay_progress → lea:paused - Détection sortie de pause → lea:resumed - Timeout étendu (120s→600s) pendant pause supervisée - 12 emits SocketIO existants aliasés (execution_started/progress/completed, copilot_step/step_result/complete) — payloads identiques, zéro régression Flag LEA_FEEDBACK_BUS=0 par défaut. Comportement legacy strictement préservé. 8 tests pytest verts (tests/integration/test_feedback_bus.py). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 21:48:38 +02:00
Dom	b808e48b1f	feat(fleet): endpoints /agents/enroll\|uninstall\|fleet + SQLite Endpoints REST pour le fleet management (utilisés par installeur Inno Setup) : POST /api/v1/agents/enroll -> 201 {status, machine_id, api_token, agent} POST /api/v1/agents/uninstall -> 200 {status, machine_id, agent} GET /api/v1/agents/fleet -> 200 {active, uninstalled, totals} Tous protégés par Bearer token (conforme _PUBLIC_PATHS existant). Nouveau module agent_v0/server_v1/agent_registry.py : - Classe AgentRegistry (sqlite3 stdlib, WAL, thread-safe via Lock) - CRUD + soft-delete (uninstall = status="uninstalled", historique préservé) - Table enrolled_agents créée via IF NOT EXISTS (pas de migration nécessaire) - Ré-enrollment après uninstall = réactivation auto (allow_reactivate=True) - Chemin DB configurable via RPA_AGENTS_DB_PATH (défaut data/databases/rpa_data.db) Fix fixture test_stream_processor : autouse RPA_API_TOKEN dans TestAPIEndpoints pour éviter SystemExit P0-C au module load. 13 tests intégration (enroll/uninstall/fleet + auth + edge cases). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:07:19 +02:00
Dom	af4ffa189a	feat(analytics): normalise API + contrat explicite get_next_action (Lot A) Contrat get_next_action() — suppression du None ambigu : {"status": "selected", "edge": ..., ...} {"status": "terminal"} {"status": "blocked", "reason": "no_valid_edge" \| ...} ExecutionLoop dispatche proprement : blocked -> PAUSED + _pause_requested, terminal -> succès légitime. Rétrocompat défensive (None legacy -> blocked). Analytics API normalisée (kwargs-only) : on_execution_complete(duration_ms, status, steps_total\|completed\|failed) on_step_complete(duration_ms, ...) on_recovery_attempt(duration_ms, ...) Découverte critique : les anciens appels utilisaient des méthodes et champs inexistants (ExecutionMetrics.duration, metrics_collector.record_execution). Le code n'avait jamais tourné au runtime — zéro analytics remontée. L'exception était avalée par le try/except englobant. 58 tests (18 analytics + 11 contrat + 20 ExecutionLoop + 12 edge_scorer non-régression). Migration complète, pas de pont legacy. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 09:06:19 +02:00
Dom	013fe071a2	feat(streamer): purge après ACK + buffering SQLite persistant - Nouveau module persistent_buffer.py (SQLite WAL, thread-safe) - Purge automatique des captures locales après ACK 200 serveur - Drain loop 15s, retry exponentiel, plafonds tentatives - Enum ImageSendResult.{OK, FAILED, FILE_GONE} pour distinguer les cas - FileNotFoundError n'est plus un faux succès (P0-E audit) - 14 tests intégration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-14 16:47:35 +02:00
Dom	d5deac3029	feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:19:18 +01:00
Dom	fe5e0ba83d	feat: sécurité HIGH — token Bearer, validation, rate limiting, headers - Token Bearer auth sur le streaming server (auto-généré ou env var) - Validation actions replay (types, longueurs, coordonnées 0-1) - Rate limiting in-memory (10 replays/min, 200 images/min) - Security headers Flask (nosniff, SAMEORIGIN, XSS) - Validation uploads (50MB max, MIME type) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-19 00:29:54 +01:00
Dom	ad15237fe0	feat: smart systray Léa (plyer), preflight GPU, fix tests, support qwen3-vl - Smart systray (pystray+plyer) remplace PyQt5 : notifications toast, menu dynamique avec workflows, chat "Que dois-je faire ?", icône colorée - Preflight GPU : check_machine_ready() + @pytest.mark.gpu dans conftest - Correction 63 tests cassés → 0 failed (1200 passed) - Tests VWB obsolètes déplacés vers _a_trier/ - Support qwen3-vl:8b sur GPU (remplace qwen2.5vl:3b) - fix images < 32x32 (Ollama panic) - fix force_json=False (qwen3-vl incompatible) - fix temperature 0.1 (0.0 bloque avec images) - Fix captor Windows : Key.esc, _get_key_name() - Fix LeaServerClient : check_connection, list_workflows format - deploy_windows.py : packaging propre client Windows - VWB : edges visibles (#607d8b) + fitView automatique Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-16 22:25:12 +01:00
Dom	cf495dd82f	feat: chat unifié, GestureCatalog, Copilot, Léa UI, extraction données, vérification replay Refonte majeure du système Agent Chat et ajout de nombreux modules : - Chat unifié : suppression du dual Workflows/Agent Libre, tout passe par /api/chat avec résolution en 3 niveaux (workflow → geste → "montre-moi") - GestureCatalog : 38 raccourcis clavier universels Windows avec matching sémantique, substitution automatique dans les replays, et endpoint /api/gestures - Mode Copilot : exécution pas-à-pas des workflows avec validation humaine via WebSocket (approve/skip/abort) avant chaque action - Léa UI (agent_v0/lea_ui/) : interface PyQt5 pour Windows avec overlay transparent pour feedback visuel pendant le replay - Data Extraction (core/extraction/) : moteur d'extraction visuelle de données (OCR + VLM → SQLite), avec schémas YAML et export CSV/Excel - ReplayVerifier (agent_v0/server_v1/) : vérification post-action par comparaison de screenshots, avec logique de retry (max 3) - IntentParser durci : meilleur fallback regex, type GREETING, patterns améliorés - Dashboard : nouvelles pages gestures, streaming, extractions - Tests : 63 tests GestureCatalog, 47 tests extraction, corrections tests existants - Dépréciation : /api/agent/plan et /api/agent/execute retournent HTTP 410, suppression du code hardcodé _plan_to_replay_actions Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 10:02:09 +01:00
Dom	a27b74cf22	v1.0 - Version stable: multi-PC, détection UI-DETR-1, 3 modes exécution - Frontend v4 accessible sur réseau local (192.168.1.40) - Ports ouverts: 3002 (frontend), 5001 (backend), 5004 (dashboard) - Ollama GPU fonctionnel - Self-healing interactif - Dashboard confiance Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-29 11:23:51 +01:00

17 Commits