rpa_vision_v3/docs/VISION_RPA_INTELLIGENT.md at aa39af327fd67ea33cee8e68f46cfd51e127491d

Dom 21bfa3b337 feat(vwb): Ajouter SeeClick, Self-Healing interactif et Dashboard confiance

## Nouvelles fonctionnalités

### 1. SeeClick Adapter (visual grounding fallback)
- Nouvel adapter pour le modèle SeeClick (HuggingFace)
- Intégré dans la chaîne de fallback: CLIP → Template → SeeClick → Static
- Localise les éléments GUI à partir de descriptions textuelles

### 2. Self-Healing Interactif
- Dialogue qui propose des alternatives quand l'ancre n'est pas trouvée
- L'utilisateur peut choisir: candidat alternatif, coords statiques, ou sauter
- Nouveaux endpoints: /healing/status, /healing/choose, /healing/candidates
- État "waiting_for_choice" pour mettre l'exécution en pause

### 3. Dashboard Confiance (temps réel)
- Affiche les scores de confiance pendant l'exécution
- Montre: méthode utilisée, distance, taux de succès
- Interface pliable en bas à droite
- Visible uniquement en mode intelligent/debug

## Fichiers ajoutés
- core/detection/seeclick_adapter.py
- frontend_v4/src/components/SelfHealingDialog.tsx
- frontend_v4/src/components/ConfidenceDashboard.tsx

## Fichiers modifiés
- core/detection/__init__.py
- backend/services/intelligent_executor.py
- backend/api_v3/execute.py
- frontend_v4/src/App.tsx
- frontend_v4/src/services/api.ts
- docs/VISION_RPA_INTELLIGENT.md

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Fonction	Modèle	Licence
UI Map (détection)	UI-DETR-1 ou OmniParser	OK commercial
Grounding (fallback)	SeeClick	OK commercial
Embeddings visuels	CLIP	MIT
Décideur	LLM local (Mistral/LLaMA 7-13B)	Apache/LLaMA

Fonction	Description
Démo commerciale	Interface visuelle impressionnante pour prospects
Bootstrap	Créer rapidement des exemples d'apprentissage
Correction	Humain corrige les erreurs de l'agent via UI
Accélérateur	Génère des données d'entraînement validées

Aujourd'hui (VWB)	Demain (Produit final)
Interface drag & drop	Instructions texte/vocal
Workflows manuels	Workflows générés par l'agent
Humain dessine le chemin	Agent déduit le chemin
VWB + Dashboard	Dashboard + Agents seuls

Fonction	Basique	Intelligent	Debug
Localisation	Coordonnées fixes	UI-DETR + CLIP	UI-DETR + CLIP
Décision	Séquentiel strict	LLM choisit	LLM choisit
Self-healing	OFF	ON	ON
Vérification	Aucune	Après chaque action	Après chaque action
Overlay visuel	Aucun	Aucun	Bboxes + scores
Vitesse	Rapide	Plus lent	Plus lent
Usage	Démo simple	Démo "magie"	Debug interne

9.2 KiB

Raw Blame History

RPA Vision - Architecture et Vision Produit

Vision Globale

Architecture Technique

Machine Cible

Composants Principaux

Pipeline de Détection (Hybride)

Modèles Utilisés

Terrain de jeu

Rôle de VWB (Visual Workflow Builder)

Utilité

Évolution prévue

Modes d'Exécution VWB

Toggle Global (3 modes)

Comparaison des modes

Scénario de Démo Type

Acte 1 : "Le robot classique"

Acte 2 : "Le problème"

Acte 3 : "La magie"

Acte 4 : "Le futur"

Compréhension des Intentions

Données d'Apprentissage

Format d'export

Boucle d'apprentissage

Prochaines Étapes

Fait ✅

À faire

9.2 KiB Raw Blame History

RPA Vision - Architecture et Vision Produit

Vision Globale

Architecture Technique

Machine Cible

Composants Principaux

Pipeline de Détection (Hybride)

Modèles Utilisés

Terrain de jeu

Rôle de VWB (Visual Workflow Builder)

Utilité

Évolution prévue

Modes d'Exécution VWB

Toggle Global (3 modes)

Comparaison des modes

Scénario de Démo Type

Acte 1 : "Le robot classique"

Acte 2 : "Le problème"

Acte 3 : "La magie"

Acte 4 : "Le futur"

Compréhension des Intentions

Données d'Apprentissage

Format d'export

Boucle d'apprentissage

Prochaines Étapes

Fait ✅

À faire

9.2 KiB

Raw Blame History