rpa_vision_v3

Files

Dom d99b17394a feat: VLM grounding direct (Qwen2.5-VL) — nouvelle stratégie de résolution

Nouvelle approche basée sur les recherches état de l'art :
- _resolve_by_grounding() : le VLM retourne directement les coordonnées
  (pas de SomEngine + numérotation intermédiaire)
- Utilise Qwen2.5-VL (entraîné pour le GUI grounding) au lieu de qwen3-vl
- Parse les formats natifs : bbox_2d, JSON x/y, arrays bruts
- Fallback multi-image : screenshot + crop → grounding sans description
- Identification des icônes via Qwen2.5-VL (meilleur que qwen3-vl)

Résultats sur session réelle (validation locale) :
- Éléments avec texte (Word, Document, Fichier) : 100% corrects
- Icônes sans texte (Windows logo, disquette) : en cours d'amélioration

Cascade strict mode :
0. Grounding VLM direct (Qwen2.5-VL) — NOUVEAU
0.5. Template matching pour icônes
1. VLM Quick Find (fallback)
1.5. SoM + VLM
2. Template matching strict

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-31 18:55:00 +02:00

__init__.py

chore: ajouter agent_v0/ au tracking git (était un repo embarqué)

2026-03-18 11:12:23 +01:00

api_stream.py

feat: VLM grounding direct (Qwen2.5-VL) — nouvelle stratégie de résolution

2026-03-31 18:55:00 +02:00

live_session_manager.py

feat: replay visuel VLM-first, worker séparé, package Léa, AZERTY, sécurité HTTPS

2026-03-26 10:19:18 +01:00

replay_verifier.py

chore: ajouter agent_v0/ au tracking git (était un repo embarqué)