rpa_vision_v3

Author	SHA1	Message	Date
Dom	99d2083dea	fix(ORA): moveTo + pause + click + pause + Win+D (séquence validée par Dom) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 20:06:55 +02:00
Dom	a718086140	fix(ORA): xdotool windowactivate QEMU + key super+d pour focus VM Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 10s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details pyautogui.click cliquait SUR Chrome. xdotool search --name QEMU trouve la fenêtre VM et la force au premier plan avant Win+D. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 18:08:10 +02:00
Dom	c82979e72b	fix(ORA): clic centre écran pour focus VM avant Win+D Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 17:45:05 +02:00
Dom	2185c41cc1	fix(ORA): Win+D au lieu de Alt+Tab pour le recovery overlay Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 13s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Alt+Tab bascule entre fenêtres. Win+D affiche le bureau Windows. Plus fiable quand l'élément cible est sur le bureau. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 17:19:06 +02:00
Dom	26804eb123	fix(ORA): Alt+Tab au lieu de windowminimize pour le recovery overlay Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details windowminimize minimisait en boucle toutes les fenêtres (VM incluse). Alt+Tab bascule juste le focus sans rien fermer/minimiser. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 17:09:38 +02:00
Dom	d71d5df4a8	fix(ORA): overlay = minimiser la fenêtre devant, pas juste chercher OK Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand la pré-vérification dit NO et qu'aucun pattern de dialogue n'est détecté, c'est une fenêtre quelconque qui masque la cible (Chrome, etc). xdotool windowminimize pour la dégager. Classification améliorée : pré-check rejeté → OVERLAY_BLOCKING (avant c'était ELEMENT_NOT_FOUND → scroll inutile). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 17:03:18 +02:00
Dom	6829ad8e79	feat(ORA): classification erreurs + recovery intelligent Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 13s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details 4 types d'erreurs : ELEMENT_NOT_FOUND, OVERLAY_BLOCKING, WRONG_SCREEN, ACTION_NO_EFFECT. Recovery spécialisé par type : - Element introuvable → attente + scroll + retry UI-TARS élargi - Overlay bloquant → détection pattern + fermeture auto + retry - Mauvais écran → description VLM + Alt+Tab + recherche taskbar - Pas d'effet → double-clic + délai + coordonnées décalées Intégré dans run_workflow() : classification → recovery → re-vérif. Échec total → pause supervisée (pas de stop brutal). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 16:44:31 +02:00
Dom	8903f35433	feat(ORA): vérification pré-action — VLM confirme avant chaque clic Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Avant de cliquer, crop 200x100 autour de la position cible envoyé au VLM (qwen2.5vl:3b) : "Is this UI element 'CR_patient_demo'? YES/NO" Si NO → abandon du clic, évite les clics erronés. Si erreur VLM → laisse passer (pas bloquant). Skippé pour le template matching (confiance pixel suffisante). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 16:22:37 +02:00
Dom	4ab2c15e5c	fix(ORA): logger.info→print pour que les logs apparaissent dans nohup Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le logging Python ne traverse pas le nohup de Flask. Tous les autres modules (execute.py, intelligent_executor.py) utilisent print(). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 16:16:25 +02:00
Dom	eba6fea779	refactor(ORA): UI-TARS en PREMIER pour les clics Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 15s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Ordre : UI-TARS (3s, 94%) → Template (80ms) → OCR (1s) UI-TARS dit "click on CR_patient_demo" et trouve les coordonnées comme un humain. Le template matching échoue sur les icônes Windows (micro-différences visuelles → score 0.38 au lieu de 0.95). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 15:59:45 +02:00
Dom	f04398d5a7	fix: VLM décrit TOUJOURS l'ancre à la capture, pas seulement si OCR échoue Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details L'OCR seul donnait du bruit (\"- C\", \"emo\"). Le VLM (qwen2.5vl:3b) est maintenant appelé systématiquement pour décrire l'ancre en 5 mots (\"folder icon named Demo\", \"search bar with magnifier icon\"). Le target_text utilise l'OCR si lisible, sinon la description VLM. La description VLM est toujours stockée dans ocr_description. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 15:30:19 +02:00
Dom	4ce9c47f45	fix(ORA): logs stdout + vérification pHash tolérante pour clics Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Logs : forcer le handler stdout pour que les logs ORA apparaissent dans nohup (logger.info n'écrivait nulle part). Vérification : un clic avec confiance >= 0.7 est accepté même si l'écran ne change pas (pHash same). Un clic sur un champ de saisie ne modifie quasi pas l'écran mais est légitime. Changement mineur toujours accepté (plus de condition confiance > 0.9). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 15:04:13 +02:00
Dom	9dfcdb5fb0	fix: ajouter 'verified' dans la liste des modes du toggle Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 19s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 14:48:41 +02:00
Dom	3efe15d2c7	feat(vwb): ajout mode 'Vérifié' dans le sélecteur d'exécution Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 14:36:06 +02:00
Dom	9d87ed64c5	fix: corrections audit qualité — stop/pause ORA + nettoyage debug Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CRITIQUE : ajout should_continue callback dans ORALoop pour supporter les boutons Stop/Pause du frontend en mode verified et instruction. HAUTE : suppression sys.stdout.write de debug, logger.warning→debug dans _grounding_ocr. BASSE : suppression import mort 'field' dans observe_reason_act.py. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 11:17:20 +02:00
Dom	00134963e5	test: 16 tests unitaires pour la boucle ORA Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 9s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Tests ORALoop init, Decision, reason_workflow_step (click, type, hotkey, wait, passthrough), verify (none, wait, done), run_workflow (empty, too_many), run_instruction (méthodes existent). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 10:43:28 +02:00
Dom	0ec5e2a25b	feat: instructions en langage naturel via boucle ORA Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 11s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details reason_instruction() : le VLM regarde l'écran, décide la prochaine action atomique (click/type/hotkey/scroll/done), retourne un Decision avec expected_after pour la vérification. run_instruction() : boucle ORA complète pour instructions texte. CognitiveContext mis à jour à chaque étape (objectif, historique, faits appris, confiance). POST /api/v3/execute/instruction : endpoint API pour lancer une instruction en langage naturel. Thread daemon, polling du résultat via GET /api/v3/execute/instruction/result. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 09:09:53 +02:00
Dom	0c5fffe951	feat: boucle ORA (observe→raisonne→agit) avec vérification post-action Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Nouveau module core/execution/observe_reason_act.py (794 lignes) : - ORALoop : boucle unifiée pour workflow VWB et instructions - observe() : capture écran + pHash + titre fenêtre - reason_workflow_step() : mappe step VWB → Decision (sans VLM) - act() : template matching → find_element → pyautogui - verify() : Level 1 pHash + Level 2 VLM conditionnel - run_workflow() : boucle complète avec retries et callbacks Nouveau mode execution_mode='verified' dans execute.py : - run_workflow_verified() utilise ORALoop - Modes basic/intelligent/debug inchangés (zéro risque) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-22 09:02:54 +02:00
Dom	5027ed9a23	chore: sauvegarde workflows.db après 23 tests de fiabilité réussis Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details 23/24 tests du workflow Demo PMSI réussis (1 échec = main sur souris). Template matching en premier (~80ms), CLIP batch en fallback (~4.5s). Total workflow : ~20s (était 131s il y a 24h). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 20:15:22 +02:00
Dom	6caab2c600	perf: boucle fermée pHash (2s→150ms) + batch CLIP (90 appels→1) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Boucle fermée : time.sleep(2.0) remplacé par _wait_for_screen_change() qui poll le pHash toutes les 150ms. Sort dès que l'écran change. 4 occurrences remplacées. Batch CLIP : filtre par distance AVANT le CLIP (90→~20 éléments), puis embed_image_batch() en un seul appel GPU + np.dot vectorisé. Estimé : 42s→~20s total workflow. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 19:33:42 +02:00
Dom	552e66dbf6	fix: import io manquant dans template matching Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 19:21:15 +02:00
Dom	de1026ee2e	perf: template matching direct en PREMIER (~1-10ms) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details cv2.matchTemplate cherche l'ancre directement dans le screenshot. Pas de RF-DETR, pas de CLIP, pas de 90 comparaisons. Seuil 0.75 pour éviter les faux positifs. Ordre : template (1ms) → CLIP (fallback) → OCR/UI-TARS (dernier recours) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 19:17:08 +02:00
Dom	7b50725bf8	perf: RF-DETR sur GPU (cuda) — était sur CPU = 28s par étape Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details RF-DETR détecte 90+ éléments UI par screenshot. Sur CPU = 28s. Sur GPU RTX 5070 = devrait être 1-3s. CLIP auto-GPU déjà en place (vérifie 1.5 Go VRAM libre). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 18:54:19 +02:00
Dom	7feef3b6a9	fix: CLIP en premier, suppression vérification OCR croisée, fix indentation Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 18:36:20 +02:00
Dom	0b06db222d	fix: activer la fenêtre cible après minimisation du navigateur VWB Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Après minimisation du navigateur, xdotool active la fenêtre suivante (VM QEMU, app cible). Avant, le terminal restait au premier plan → mss capturait le terminal au lieu de la VM. Cause racine de tous les échecs de matching. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 18:21:55 +02:00
Dom	74ee0dadee	perf: pré-chargement docTR au démarrage + nettoyage debug logs Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details docTR se chargeait au premier appel OCR (~30s). Maintenant pré-chargé au démarrage du backend → premier clic rapide. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 17:25:35 +02:00
Dom	0b452f975a	fix: pénaliser matchs OCR partiels trop courts (demo dans CR_patient_demo) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:49:22 +02:00
Dom	6ab385d671	fix(grounding): OCR collecte TOUS les matchs + choisit le plus proche de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Avant : OCR retournait le premier match → cliquait sur la barre de titre ("CR_patient_demo" dans le path) au lieu du fichier dans la liste. Après : collecte tous les matchs, choisit le plus proche de la position originale de l'ancre (anchor_bbox). Si pas de bbox, prend le plus central. Élimine les clics sur les barres de titre, breadcrumbs, menus. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:40:15 +02:00
Dom	b3eab83a0f	fix: variable 'result' non définie quand grounding réussit sans CLIP Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 16:26:45 +02:00
Dom	27490849a8	refactor: OCR/UI-TARS en PREMIER, CLIP en fallback Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le grounding par texte (OCR → UI-TARS) est maintenant la méthode PRINCIPALE. CLIP n'est appelé que si le grounding échoue. Avant : CLIP (faux positifs confiants) → cascade grounding (rarement atteinte) Après : OCR 1s → UI-TARS 3s → CLIP (fallback visuel pur) C'est comme ça que font UI-TARS, Agent-S3 et AppAgent. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 14:40:38 +02:00
Dom	cebbf0809a	fix: timeout VLM 15→60s + OCR zone élargie autour de l'ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 14:05:38 +02:00
Dom	3e227d28ad	fix(vwb): image plein écran — calcul dimensions JS explicite (fix définitif) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Cause racine : max-width/max-height CSS ne font pas GRANDIR une image. Fix : calcul explicite width/height en JS via Math.min(ratio). min-height:0 sur le conteneur flex. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 12:19:30 +02:00
Dom	8ce63fcba2	fix(vwb): CSS max-height 100% → calc(100vh-70px) — cause racine du timbre poste Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 17s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le fichier CSS avait max-height:100% sur .fullscreen-content img qui écrasait le style inline calc(100vh-70px). 100% d'un conteneur flex sans hauteur explicite = taille naturelle de l'image = minuscule. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 12:10:24 +02:00
Dom	4202431421	fix(vwb): image plein écran maxHeight calc(100vh-70px) basé sur viewport Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 17s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:58:58 +02:00
Dom	4923623dd4	fix(vwb): bibliothèque ne s'écrase plus au chargement Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 16s Details tests / Tests unitaires (sans GPU) (push) Failing after 16s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le useEffect(saveLibrary) se déclenchait avec library=[] avant que loadLibraryAsync ait fini → écrasait le fichier serveur avec un tableau vide. Ajout d'un flag libraryLoaded pour ne sauvegarder qu'après le chargement initial. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:54:16 +02:00
Dom	84181cc982	feat: analyse OCR+VLM de l'ancre à la capture (pas à l'exécution) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand l'utilisateur sélectionne une ancre dans le VWB : 1. OCR docTR extrait le texte du crop → target_text 2. Si texte < 3 chars → VLM qwen2.5vl:3b décrit en 5 mots 3. Stocké en BDD (VisualAnchor.target_text + ocr_description) 4. Injecté automatiquement dans les params à l'exécution L'exécution sait maintenant QUOI chercher dès le départ : - CLIP vérifie par OCR que le texte correspond - Le grounding cascade a un vrai target_text - Plus besoin de deviner à chaque run Migration SQLite gracieuse (ALTER TABLE si colonnes absentes). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:26:30 +02:00
Dom	7355d315a3	fix: vérification croisée CLIP+OCR + description ancre avant exécution Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 13s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand CLIP dit "trouvé", on vérifie par OCR que le texte à cette position correspond au target. Si CLIP clique sur "Ce PC" au lieu de "CR_patient_demo", l'OCR le rejette → fallback sur la cascade. Description VLM de l'ancre AVANT le CLIP quand le label est un type d'action (double_click_anchor → "text file icon CR_patient"). Le target_text enrichi sert à la vérification croisée ET au grounding. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 11:10:01 +02:00
Dom	c50adab3a1	fix: aligner capture monitors[0] partout (cause de la régression) Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details La capture VWB utilisait monitors[0] (composite) mais l'exécution utilisait monitors[1] (premier écran). Images incompatibles → CLIP retournait 0.00 sur un écran identique. Tous les fichiers alignés sur monitors[0]. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:52:13 +02:00
Dom	2fbb305f65	fix: remonter seuil CLIP à 0.45 — le 0.20 créait des faux positifs Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Le seuil 0.20 faisait que CLIP cliquait sur Chrome au lieu du dossier Demo (score 0.25 accepté = faux positif). Le seuil 0.45 rejette les matchs faibles et la cascade OCR/UI-TARS prend le relais proprement. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:39:02 +02:00
Dom	ff581be397	perf: seuil CLIP 0.45→0.20 + cache singleton IntelligentExecutor Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Seuil CLIP abaissé pour les icônes génériques (dossier, fichier) qui obtenaient 0.25 au lieu de 0.45. IntelligentExecutor en singleton — CLIP et RF-DETR chargés une seule fois et réutilisés entre les étapes. Élimine le rechargement de ~40s par étape. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:29:15 +02:00
Dom	203e5cc6c1	fix(grounding): désactiver orchestrateur VRAM pendant exécution + qwen2.5vl:3b pour description Some checks failed security-audit / Bandit (scan statique) (push) Successful in 16s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details L'orchestrateur VRAM redémarrait Ollama en pleine exécution → timeout. Désactivé pendant le workflow. L'orchestrateur reste disponible pour bascule manuelle avant/après. Description ancre via qwen2.5vl:3b (3 Go) au lieu de 7b — tient en VRAM sans décharger CLIP ni RF-DETR. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:16:27 +02:00
Dom	d1b556b6cd	fix(grounding): supprimer SeeClick cassé + log description ancre Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details SeeClick supprimé : modèle HF incompatible (QWenConfig non reconnu), crashait à chaque exécution et polluait les logs. Remplacé par UI-TARS via la chaîne de grounding. Log warning visible quand la description VLM de l'ancre échoue (pour diagnostiquer les problèmes de VRAM). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 10:05:29 +02:00
Dom	729cd67743	feat(grounding): description VLM de l'ancre quand le label est vide Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Quand le target_text est vide ou identique au type d'action (click_anchor, double_click_anchor...), le VLM décrit l'image de l'ancre en 5 mots ("folder icon named Demo"). Cette description est ensuite passée à UI-TARS pour le grounding ("click on folder icon named Demo") et à l'OCR pour la recherche. Chaîne complète : VLM décrit → OCR cherche → UI-TARS grounding → VLM raisonne. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:44:19 +02:00
Dom	73ddcdb29d	feat: chaîne de grounding 3 niveaux + refonte capture écran Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details Grounding en cascade quand CLIP/template échouent : 1. OCR (docTR) → cherche le texte exact sur l'écran (~1s) 2. UI-TARS grounding → "click on X" → coordonnées (~3s, 94% ScreenSpot) 3. VLM reasoning → raisonnement complet + confirmation OCR (~10s) find_element_on_screen() dans input_handler.py (partagé VWB + Léa). Câblé dans find_and_click() et execute_action() comme fallback. Refonte capture écran : - mss.monitors[0] (composite) pour capturer la VM en plein écran - FullscreenSelector réécrit : overlay via getBoundingClientRect() - Bboxes et sélection alignées avec l'image (calcul JS, pas CSS) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:31:38 +02:00
Dom	14a9442343	refactor(vwb): refonte complète capture écran — stable définitivement Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 13s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details FullscreenSelector réécrit : - Overlay unique positionné via getBoundingClientRect() - Recalcul auto au resize - Coordonnées souris relatives à l'image - Plus de décalage bboxes/sélection Capture backend : - mss.monitors[0] (écran composite) au lieu de pyautogui.screenshot() - Capture la VM en plein écran correctement Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-21 09:03:19 +02:00
Dom	5da4581e76	feat(cognition): orchestrateur VRAM + VLM 7b par défaut Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 12s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details VRAMOrchestrator : bascule automatique entre modes SHADOW et REPLAY. - SHADOW : streaming server + agent_chat actifs - REPLAY : VLM qwen2.5vl:7b chargé, services non-essentiels stoppés vlm_reason_about_screen() appelle ensure_reasoning_ready() avant chaque raisonnement — libère la VRAM si nécessaire. Benchmark : qwen2.5vl:7b en 10s (warm) vs 44s quand VRAM saturée. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 22:13:29 +02:00
Dom	cbe8dc95d2	feat(cognition): timing + écran attendu + auto-apprentissage Shadow + VLM qwen2.5vl Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details Mémoire de travail enrichie : - Timing par étape (durée, moyenne, alerte si lent) - Écran attendu vs observation réelle - Contexte VLM étendu VLM reasoning : default qwen2.5vl:3b (gemma4 ne supporte pas vision) Auto-apprentissage Shadow : - stream_processor apprend les dialogues automatiquement - Clic utilisateur après dialogue → pattern mémorisé - Sauvegardé dans data/learned_patterns.json GUI-R1 : 10 patterns additionnels extraits du dataset Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:52:45 +02:00
Dom	04a14a56b2	feat(cognition): mémoire de travail — Léa sait où elle en est Some checks failed security-audit / Bandit (scan statique) (push) Successful in 13s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 9s Details tests / Lint (ruff + black) (push) Successful in 15s Details tests / Tests unitaires (sans GPU) (push) Failing after 15s Details tests / Tests sécurité (critique) (push) Has been skipped Details CognitiveContext : bloc-notes interne réinjecté à chaque décision. - objective : ce que Léa essaie de faire - current_step : progression dans le plan - action_history : les N dernières actions (succès/échec) - learned_facts : faits appris pendant l'exécution - confidence : auto-évaluation (baisse sur échec) - needs_help : demande d'aide à l'humain - to_prompt_context() : génère le texte pour le VLM Module standalone, pas encore câblé dans l'executor. Testé sur scénario de facturation OSIRIS. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:41:10 +02:00
Dom	2290f1846b	feat(cognition): raisonnement VLM quand les réflexes ne suffisent pas Some checks failed security-audit / Bandit (scan statique) (push) Successful in 14s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 11s Details security-audit / Scan secrets (grep) (push) Successful in 8s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details vlm_reason_about_screen() : capture l'écran, envoie au VLM local (gemma4/Ollama) avec l'objectif et le contexte, retourne une action en JSON (click/type/wait/nothing + target + reasoning). Chaîne de décision : 1. Réflexes (UIPatternLibrary) → instantané 2. OCR bouton (docTR) → rapide 3. VLM reasoning (Ollama) → intelligent, ~2-5s Le VLM intervient UNIQUEMENT quand 1 et 2 échouent — pas de latence ajoutée quand les réflexes suffisent. UIPatternLibrary enrichie : charge builtin + GUI-R1 + learned patterns. save_learned_pattern() persiste les patterns appris par Shadow. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:37:03 +02:00
Dom	c57b40ae1d	feat: CLIP auto-GPU si >1.5 Go VRAM libre + index FAISS IVF 11.5x plus rapide Some checks failed security-audit / Bandit (scan statique) (push) Successful in 12s Details security-audit / pip-audit (CVE dépendances) (push) Successful in 10s Details security-audit / Scan secrets (grep) (push) Successful in 7s Details tests / Lint (ruff + black) (push) Successful in 14s Details tests / Tests unitaires (sans GPU) (push) Failing after 14s Details tests / Tests sécurité (critique) (push) Has been skipped Details CLIP embedder : auto-détection GPU avec vérification VRAM disponible. Si >1.5 Go libre → CUDA, sinon → CPU. Évite les OOM quand Ollama utilise déjà la VRAM. FAISS : migration Flat → IVF (116 clusters, nprobe=8). Benchmark : 0.46ms → 0.04ms par recherche (11.5x). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-20 21:27:01 +02:00

1 2 3 4 5 ...

280 Commits