- Frontend v4 accessible sur réseau local (192.168.1.40) - Ports ouverts: 3002 (frontend), 5001 (backend), 5004 (dashboard) - Ollama GPU fonctionnel - Self-healing interactif - Dashboard confiance Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
3.2 KiB
3.2 KiB
Quick Start - Détection UI Hybride
Installation
1. Installer Ollama
# Linux
curl -fsSL https://ollama.ai/install.sh | sh
# macOS
brew install ollama
2. Démarrer Ollama
ollama serve
3. Télécharger le modèle VLM
ollama pull qwen3-vl:8b
Utilisation
Test Rapide
./rpa_vision_v3/test_quick.sh
Utilisation Programmatique
from rpa_vision_v3.core.detection import create_detector
# Créer le détecteur
detector = create_detector()
# Détecter les éléments
elements = detector.detect("screenshot.png")
# Utiliser les résultats
for elem in elements:
print(f"{elem.type:15s} | {elem.role:20s} | {elem.label}")
Exemple Complet
from rpa_vision_v3.core.detection import UIDetector, DetectionConfig
# Configuration personnalisée
config = DetectionConfig(
vlm_model="qwen3-vl:8b",
confidence_threshold=0.7,
min_region_size=10,
max_region_size=600,
use_vlm_classification=True
)
# Créer le détecteur
detector = UIDetector(config)
# Détecter
elements = detector.detect("screenshot.png", window_context={
"title": "My Application",
"process": "myapp"
})
# Filtrer par type
buttons = [e for e in elements if e.type == "button"]
text_inputs = [e for e in elements if e.type == "text_input"]
print(f"Trouvé {len(buttons)} boutons et {len(text_inputs)} champs de texte")
Tests Disponibles
# Test complet avec validation
python3 rpa_vision_v3/examples/test_complete_real.py
# Test hybride basique
python3 rpa_vision_v3/examples/test_hybrid_detection.py screenshot.png
# Test VLM simple
python3 rpa_vision_v3/examples/test_real_vlm_detection.py
Performance
- Détection OpenCV: ~10ms
- Classification VLM: ~1-2s par élément
- Total: ~30-60s pour 20-50 éléments
Types d'Éléments Détectés
button- Boutonstext_input- Champs de textecheckbox- Cases à cocherradio- Boutons radiodropdown- Listes déroulantestab- Ongletslink- Liensicon- Icônesmenu_item- Éléments de menu
Rôles Sémantiques
primary_action- Action principalecancel- Annulationsubmit- Soumissionform_input- Saisie de formulairesearch_field- Champ de recherchenavigation- Navigationsettings- Paramètresclose- Fermeture
Troubleshooting
Ollama non disponible
# Vérifier le service
systemctl status ollama # Linux
brew services list # macOS
# Redémarrer
ollama serve
Modèle non trouvé
ollama list
ollama pull qwen3-vl:8b
Détection lente
- Réduire
max_elementsdans la config - Utiliser un modèle plus rapide (granite3.2-vision:2b)
- Augmenter
confidence_thresholdpour filtrer plus
Peu d'éléments détectés
- Baisser
confidence_threshold(ex: 0.5) - Réduire
min_region_size(ex: 10) - Augmenter
max_region_size(ex: 600)
Documentation
Support
Pour plus d'aide, consultez les exemples dans rpa_vision_v3/examples/