Files

Dom a27b74cf22 v1.0 - Version stable: multi-PC, détection UI-DETR-1, 3 modes exécution

- Frontend v4 accessible sur réseau local (192.168.1.40)
- Ports ouverts: 3002 (frontend), 5001 (backend), 5004 (dashboard)
- Ollama GPU fonctionnel
- Self-healing interactif
- Dashboard confiance

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-01-29 11:23:51 +01:00

4.7 KiB

Raw Blame History

Session 25 Janvier 2026 - État Avant Période Démos

Important

: Ne rien modifier pendant la période de démos !

1. SERVICES VWB - ÉTAT ACTUEL

Service	Port	Status
Backend VWB	5001	✅ Healthy
Frontend VWB	3000	✅ Running
Ollama	11434	✅ Disponible
GPU RTX 5070	-	✅ Fonctionnel

Commandes de démarrage (si nécessaire après reboot)

# Backend VWB (IMPORTANT: utiliser le venv dans backend/ qui contient rfdetr)
cd /home/dom/ai/rpa_vision_v3/visual_workflow_builder/backend
source venv/bin/activate   # <-- venv dans backend/, pas celui du parent !
PORT=5001 FLASK_ENV=development python app.py

# Précharger le modèle UI-DETR-1 (optionnel mais recommandé)
curl -X POST http://localhost:5001/api/ui-detection/preload

# Frontend VWB v4 (dernière version)
cd /home/dom/ai/rpa_vision_v3/visual_workflow_builder/frontend_v4
npm run dev   # Port 3002 ou 3003 si occupé

# Vérifier services
cd /home/dom/ai/rpa_vision_v3/visual_workflow_builder
./status.sh

2. ATTENTION - VENVS MULTIPLES

IMPORTANT : Il y a plusieurs venvs dans le projet VWB :

Venv	Contenu	Usage
`visual_workflow_builder/venv/`	Dépendances de base	❌ Ne contient PAS rfdetr
`visual_workflow_builder/backend/venv/`	rfdetr, torch, etc.	✅ Utiliser celui-ci pour le backend

Si la détection UI ne fonctionne pas, vérifier que le backend utilise le bon venv !

3. OLLAMA - VÉRIFICATION GPU

Test effectué le 25/01/2026 :

NAME                ID              SIZE      PROCESSOR    CONTEXT
moondream:latest    55fc3abd3867    1.9 GB    100% GPU     4096

Utilisation VRAM :

Avant chargement : 594 MiB
Après chargement moondream : 3335 MiB / 12227 MiB

Conclusion : Ollama utilise bien le GPU RTX 5070.

4. CE QUI FONCTIONNE (Documentation 24 janvier)

Pipeline de Matching Vision

✅ UI-DETR-1 (détection éléments UI)
✅ CLIP (similarité sémantique)
✅ Template Matching (fallback OpenCV)
✅ Static Fallback (coordonnées originales)

Seuils Optimisés

MAX_DISTANCE_PX = 120      # Rejeter élément > 120px
MIN_CLIP_SCORE = 0.55      # Score CLIP minimum
MIN_COMBINED_SCORE = 0.5   # Score combiné minimum
MAX_TEMPLATE_DISTANCE = 150

Fonctionnalités VWB

✅ Modes Basique / Intelligent / Debug
✅ Intégration SeeClick (grounding)
✅ Self-healing interactif
✅ Dashboard confiance temps réel
✅ Workflow "OnlyOffice" 12 étapes validé

5. PROPOSITIONS D'AMÉLIORATION (À FAIRE APRÈS DÉMOS)

Priorité Haute

Cache des modèles : Charger UI-DETR-1 et CLIP une seule fois au démarrage
- Fichier concerné : services/intelligent_executor.py
- Impact : Réduction significative du temps d'exécution

Priorité Moyenne

Mode Hybride Intelligent : Basic par défaut, Vision seulement si échec
- Gain de performance pour workflows stables
Vérification Post-Action : Comparer screenshots avant/après
- Détection automatique des échecs d'action

Priorité Basse

Nettoyage Code Legacy : Vérifier les hacks temporaires (RESUME_DEBUG_22JAN2026.md)
- Visual Search possiblement désactivé temporairement
Dockerisation : Conteneuriser le système pour faciliter déploiement/maintenance
- Voir document détaillé : docs/ROADMAP_DOCKERISATION.md
- Phase 1 : Services web (facile)
- Phase 2 : Backend GPU (moyen)
- Phase 3 : Agent RPA (complexe)

6. ROADMAP (Depuis VISION_RPA_INTELLIGENT.md)

Fait ✅

Frontend VWB v4 avec React Flow
Toggle Mode Basique/Intelligent/Debug
Intégration UI-DETR-1 pour détection
Overlay Debug (affichage bboxes)
Exécution intelligente (template matching)
Sélection zone de détection sur capture fixe
Intégration SeeClick en fallback (24 janvier)
Self-healing interactif (24 janvier)
Dashboard confiance (24 janvier)

À faire (après démos)

Export données d'apprentissage (format JSON)
Apprentissage des corrections (feedback loop)
Connexion au moteur principal (agents autonomes)

7. FICHIERS CLÉS

Fichier	Rôle
`backend/app.py`	Point d'entrée backend VWB
`backend/catalog_routes.py`	Routes catalogue + exécution
`backend/catalog_routes_v2_vlm.py`	Intégration VLM Ollama
`backend/services/intelligent_executor.py`	Pipeline vision CLIP + Template
`frontend/src/components/VisualSelector/index.tsx`	Sélection ancres visuelles

8. BACKUP

Backup créé le 25/01/2026 :

/home/dom/ai/backups/rpa_vision_v3_backup_25jan2026.tar.gz

Document généré le 25 janvier 2026 - NE PAS MODIFIER PENDANT DÉMOS

4.7 KiB Raw Blame History