7.4 KiB
🎯 OBJECTIF FINAL DE RPA VISION V2
Vision Globale
RPA Vision V2 est un assistant d'automatisation intelligent qui apprend en observant tes actions répétitives sur l'ordinateur, puis te propose de les automatiser progressivement.
Le Concept en 3 Phrases
- Tu travailles normalement, le système observe en silence
- Il détecte tes habitudes (ex: "Tu cliques 3 fois sur Rafraîchir chaque matin")
- Il te propose de le faire automatiquement à ta place, avec ton contrôle
Les 3 Modes d'Évolution
👀 Mode Shadow (Observation)
"Je regarde et j'apprends"
- Le système observe tout ce que tu fais
- Capture screenshots, positions de clics, fenêtres actives
- Détecte les patterns répétitifs (ex: 3 clics identiques)
- Crée des "signatures visuelles" avec l'IA
- N'exécute RIEN - juste observation pure
Objectif : Apprendre tes habitudes sans risque
🤝 Mode Assisté (Suggestion)
"Je te propose, tu valides"
Après 20 observations d'une même tâche :
- Le système suggère l'action suivante
- Affiche une superposition visuelle sur l'élément à cliquer
- Tu valides (Entrée) ou refuses (Échap)
- Si tu corriges (Alt+C), il apprend de son erreur
Objectif : Gagner du temps tout en gardant le contrôle
🤖 Mode Autopilot (Automatique)
"Je le fais tout seul"
Après 20 observations + 95% de réussite :
- Le système exécute automatiquement la tâche
- Affiche une notification de succès/échec
- Tu peux arrêter d'urgence (Ctrl+Pause)
- Rollback possible (annule les 3 dernières actions)
Objectif : Automatisation complète des tâches stables
La Stack Technologique
🧠 Intelligence Artificielle
-
Qwen3-VL (via Ollama)
- Comprend ce que tu fais visuellement
- Génère des descriptions intelligentes
- "Rafraîchir la page" au lieu de "Clic à (42, 1048)"
-
OWL-v2 / DINO / YOLO
- Détectent les boutons, icônes, champs
- "C'est un bouton Rafraîchir" pas juste "un rectangle bleu"
-
OpenCLIP + FAISS
- Crée des "empreintes visuelles" des éléments
- Retrouve le même bouton même si l'UI change légèrement
- Recherche ultra-rapide dans des milliers d'images
-
OpenCV
- Traitement d'images en temps réel
- Template matching pour retrouver des éléments
Le Flux Complet
1. TU TRAVAILLES
↓
2. SYSTÈME OBSERVE (Mode Shadow)
- Capture screenshots
- Détecte patterns répétitifs
- Crée signatures visuelles
↓
3. SYSTÈME APPREND
- Qwen3-VL analyse: "C'est un rafraîchissement de page"
- OWL-v2 détecte: "Bouton circulaire en haut à gauche"
- FAISS indexe: Empreinte visuelle stockée
↓
4. APRÈS 20 OBSERVATIONS
- Transition vers Mode Assisté
- "Je pense que tu veux rafraîchir, je le fais ?"
↓
5. TU VALIDES 20 FOIS (95% succès)
- Transition vers Mode Autopilot
- "Je le fais automatiquement maintenant"
↓
6. AUTOMATISATION COMPLÈTE
- Le système exécute seul
- Tu supervises via le dashboard
- Corrections possibles si erreur
Sécurité & Contrôle
🛡️ Liste Blanche
- Tu choisis les applications autorisées
- Rien ne s'exécute ailleurs (ex: pas dans ta banque en ligne)
📝 Logs Chiffrés
- Tout est enregistré (AES-256)
- Traçabilité complète pour audit
- Qui a fait quoi, quand, pourquoi
🔄 Rollback
- Annule les 3 dernières actions
- Restaure l'état précédent
- Sécurité en cas d'erreur
⏸️ Arrêt d'Urgence
- Ctrl+Pause = Stop immédiat
- Retour au Mode Assisté
- Contrôle total à tout moment
Adaptation Continue
📊 Détection de Changements UI
- Si l'interface change (mise à jour logiciel)
- Le système détecte la différence (similarité < 70%)
- Demande une ré-observation
- Réapprend automatiquement
🎯 Scores de Confiance Dynamiques
- Chaque action a un score 0-100%
- Formule: 60% vision + 30% LLM + 10% historique
- Si score < 90% → Retour Mode Assisté
- Adaptation automatique
📈 Métriques en Temps Réel
- Taux de succès par tâche
- Latence moyenne
- Nombre de corrections
- Dashboard live
Cas d'Usage Concrets
Exemple 1: Rafraîchir une Page Web
Jour 1-5: Tu rafraîchis manuellement (Mode Shadow observe)
Jour 6: "Je peux le faire pour toi ?" (Mode Assisté)
Jour 10: Automatique (Mode Autopilot)
Exemple 2: Remplir un Formulaire
Observation: Tu remplis le même formulaire chaque jour
Apprentissage: Nom, prénom, date dans les bons champs
Suggestion: "Je remplis pour toi ?"
Automatisation: Formulaire rempli en 2 secondes
Exemple 3: Workflow Multi-Étapes
1. Ouvrir Excel
2. Copier données
3. Ouvrir navigateur
4. Coller dans formulaire web
5. Cliquer Enregistrer
→ Tout automatisé après apprentissage
Performance Cible
- ⚡ Latence : < 400ms observation → suggestion
- ✅ Précision : > 95% de réussite en Autopilot
- 🔧 Corrections : < 3% d'erreurs nécessitant correction
- 💾 Mémoire : ~150 MB RAM pour 50 screenshots
- 🖥️ GPU : 8 GB VRAM pour Qwen3-VL
L'Innovation Clé
Apprentissage Visuel Pur : Pas besoin de programmer, pas de sélecteurs CSS, pas de scripts. Le système voit comme toi et apprend comme toi.
C'est comme avoir un assistant qui regarde par-dessus ton épaule, mémorise tes habitudes, et te propose gentiment : "Je peux faire ça pour toi la prochaine fois ?"
Architecture Technique
Composants Principaux
- EventCapture : Capture clavier/souris en temps réel
- VisionAnalysis : Analyse visuelle avec IA
- LearningManager : Gestion de l'apprentissage et des transitions de mode
- Orchestrator : Coordination de tous les composants
- EmbeddingsManager : Gestion FAISS et OpenCLIP
- LLMManager : Interface avec Qwen3-VL via Ollama
- VisionUtils : Détection avec OWL-v2/DINO/YOLO
Stockage
- FAISS Index :
data/faiss_index/- Embeddings visuels - Tâches Apprises :
data/user_profiles/- Signatures + métadonnées - Logs Chiffrés :
data/logs/- Historique complet - Screenshots : En mémoire uniquement (50 derniers)
Technologies
- Python 3.12 : Langage principal
- PyQt6 : Interface graphique
- PyTorch : Modèles de vision
- Transformers : OWL-v2, DINO
- Ultralytics : YOLO-World
- Ollama : Qwen3-VL
- FAISS : Recherche de similarité
- OpenCV : Traitement d'images
- pynput : Capture événements système
État Actuel (MVP Fonctionnel)
✅ Implémenté :
- Capture d'événements (clics, touches)
- Détection de patterns répétitifs
- Analyse visuelle avec signatures
- Création de tâches apprises
- Intégration Qwen3-VL
- Modèles de détection (OWL-v2, DINO, YOLO)
- Index FAISS
- Interface GUI basique
🚧 À Compléter :
- Mode Assisté (suggestions avec validation)
- Mode Autopilot (exécution automatique)
- Rejeu des tâches apprises
- Dashboard de métriques
- Rollback d'actions
- Détection de changements UI
- Transitions de mode automatiques
Prochaines Étapes
- Implémenter le rejeu : Exécuter les tâches apprises
- Ajouter les suggestions : Mode Assisté avec superposition visuelle
- Créer le dashboard : Métriques en temps réel
- Implémenter les transitions : Shadow → Assisté → Autopilot
- Ajouter le rollback : Annulation d'actions
- Tester en conditions réelles : Workflows utilisateur complets