rpa_vision_v3

Author	SHA1	Message	Date
Dom	9d87ed64c5	fix: corrections audit qualité — stop/pause ORA + nettoyage debug Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CRITIQUE : ajout should_continue callback dans ORALoop pour supporter les boutons Stop/Pause du frontend en mode verified et instruction. HAUTE : suppression sys.stdout.write de debug, logger.warning→debug dans _grounding_ocr. BASSE : suppression import mort 'field' dans observe_reason_act.py. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 11:17:20 +02:00
Dom	74ee0dadee	perf: pré-chargement docTR au démarrage + nettoyage debug logs Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details docTR se chargeait au premier appel OCR (~30s). Maintenant pré-chargé au démarrage du backend → premier clic rapide. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 17:25:35 +02:00
Dom	0b452f975a	fix: pénaliser matchs OCR partiels trop courts (demo dans CR_patient_demo) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:49:22 +02:00
Dom	6ab385d671	fix(grounding): OCR collecte TOUS les matchs + choisit le plus proche de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Avant : OCR retournait le premier match → cliquait sur la barre de titre ("CR_patient_demo" dans le path) au lieu du fichier dans la liste. Après : collecte tous les matchs, choisit le plus proche de la position originale de l'ancre (anchor_bbox). Si pas de bbox, prend le plus central. Élimine les clics sur les barres de titre, breadcrumbs, menus. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:40:15 +02:00
Dom	c50adab3a1	fix: aligner capture monitors[0] partout (cause de la régression) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details La capture VWB utilisait monitors[0] (composite) mais l'exécution utilisait monitors[1] (premier écran). Images incompatibles → CLIP retournait 0.00 sur un écran identique. Tous les fichiers alignés sur monitors[0]. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:52:13 +02:00
Dom	203e5cc6c1	fix(grounding): désactiver orchestrateur VRAM pendant exécution + qwen2.5vl:3b pour description Some checks failed security-audit / Bandit (scan statique) (push) Successful in 16s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details L'orchestrateur VRAM redémarrait Ollama en pleine exécution → timeout. Désactivé pendant le workflow. L'orchestrateur reste disponible pour bascule manuelle avant/après. Description ancre via qwen2.5vl:3b (3 Go) au lieu de 7b — tient en VRAM sans décharger CLIP ni RF-DETR. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:16:27 +02:00
Dom	d1b556b6cd	fix(grounding): supprimer SeeClick cassé + log description ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details SeeClick supprimé : modèle HF incompatible (QWenConfig non reconnu), crashait à chaque exécution et polluait les logs. Remplacé par UI-TARS via la chaîne de grounding. Log warning visible quand la description VLM de l'ancre échoue (pour diagnostiquer les problèmes de VRAM). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:05:29 +02:00
Dom	729cd67743	feat(grounding): description VLM de l'ancre quand le label est vide Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand le target_text est vide ou identique au type d'action (click_anchor, double_click_anchor...), le VLM décrit l'image de l'ancre en 5 mots ("folder icon named Demo"). Cette description est ensuite passée à UI-TARS pour le grounding ("click on folder icon named Demo") et à l'OCR pour la recherche. Chaîne complète : VLM décrit → OCR cherche → UI-TARS grounding → VLM raisonne. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:44:19 +02:00
Dom	73ddcdb29d	feat: chaîne de grounding 3 niveaux + refonte capture écran Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Grounding en cascade quand CLIP/template échouent : 1. OCR (docTR) → cherche le texte exact sur l'écran (~1s) 2. UI-TARS grounding → "click on X" → coordonnées (~3s, 94% ScreenSpot) 3. VLM reasoning → raisonnement complet + confirmation OCR (~10s) find_element_on_screen() dans input_handler.py (partagé VWB + Léa). Câblé dans find_and_click() et execute_action() comme fallback. Refonte capture écran : - mss.monitors[0] (composite) pour capturer la VM en plein écran - FullscreenSelector réécrit : overlay via getBoundingClientRect() - Bboxes et sélection alignées avec l'image (calcul JS, pas CSS) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:31:38 +02:00
Dom	5da4581e76	feat(cognition): orchestrateur VRAM + VLM 7b par défaut Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details VRAMOrchestrator : bascule automatique entre modes SHADOW et REPLAY. - SHADOW : streaming server + agent_chat actifs - REPLAY : VLM qwen2.5vl:7b chargé, services non-essentiels stoppés vlm_reason_about_screen() appelle ensure_reasoning_ready() avant chaque raisonnement — libère la VRAM si nécessaire. Benchmark : qwen2.5vl:7b en 10s (warm) vs 44s quand VRAM saturée. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 22:13:29 +02:00
Dom	cbe8dc95d2	feat(cognition): timing + écran attendu + auto-apprentissage Shadow + VLM qwen2.5vl Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Mémoire de travail enrichie : - Timing par étape (durée, moyenne, alerte si lent) - Écran attendu vs observation réelle - Contexte VLM étendu VLM reasoning : default qwen2.5vl:3b (gemma4 ne supporte pas vision) Auto-apprentissage Shadow : - stream_processor apprend les dialogues automatiquement - Clic utilisateur après dialogue → pattern mémorisé - Sauvegardé dans data/learned_patterns.json GUI-R1 : 10 patterns additionnels extraits du dataset Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:52:45 +02:00
Dom	2290f1846b	feat(cognition): raisonnement VLM quand les réflexes ne suffisent pas Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details vlm_reason_about_screen() : capture l'écran, envoie au VLM local (gemma4/Ollama) avec l'objectif et le contexte, retourne une action en JSON (click/type/wait/nothing + target + reasoning). Chaîne de décision : 1. Réflexes (UIPatternLibrary) → instantané 2. OCR bouton (docTR) → rapide 3. VLM reasoning (Ollama) → intelligent, ~2-5s Le VLM intervient UNIQUEMENT quand 1 et 2 échouent — pas de latence ajoutée quand les réflexes suffisent. UIPatternLibrary enrichie : charge builtin + GUI-R1 + learned patterns. save_learned_pattern() persiste les patterns appris par Shadow. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:37:03 +02:00
Dom	6c7f88c05d	refactor: factorisation input_handler partagé + page cartographie processus Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details core/execution/input_handler.py (NOUVEAU) : - safe_type_text() : setxkbmap fr + xdotool, partagé entre les 2 executors - check_screen_for_patterns() : détection dialogues UI via OCR - handle_detected_pattern() : clic bouton par OCR (mot exact, le plus bas) - post_execution_cleanup() : vérification post-workflow VWB executor : suppression du code dupliqué, alias vers input_handler Core executor : pyautogui.write() remplacé par safe_type_text() Page dashboard "Cartographie des processus" : - GET /process-mining : vue analyse des flux de travail - POST /api/process-mining/discover : génère BPMN + indicateurs - 4 cartes indicateurs, diagramme, points d'attention, variantes - Dark theme, français, zéro jargon technique - Onglet ajouté dans la navigation Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 17:08:37 +02:00

13 Commits