Files

2026-03-05 00:20:25 +01:00

7.4 KiB

Raw Permalink Blame History

🎯 OBJECTIF FINAL DE RPA VISION V2

Vision Globale

RPA Vision V2 est un assistant d'automatisation intelligent qui apprend en observant tes actions répétitives sur l'ordinateur, puis te propose de les automatiser progressivement.

Le Concept en 3 Phrases

Tu travailles normalement, le système observe en silence
Il détecte tes habitudes (ex: "Tu cliques 3 fois sur Rafraîchir chaque matin")
Il te propose de le faire automatiquement à ta place, avec ton contrôle

Les 3 Modes d'Évolution

👀 Mode Shadow (Observation)

"Je regarde et j'apprends"

Le système observe tout ce que tu fais
Capture screenshots, positions de clics, fenêtres actives
Détecte les patterns répétitifs (ex: 3 clics identiques)
Crée des "signatures visuelles" avec l'IA
N'exécute RIEN - juste observation pure

Objectif : Apprendre tes habitudes sans risque

🤝 Mode Assisté (Suggestion)

"Je te propose, tu valides"

Après 20 observations d'une même tâche :

Le système suggère l'action suivante
Affiche une superposition visuelle sur l'élément à cliquer
Tu valides (Entrée) ou refuses (Échap)
Si tu corriges (Alt+C), il apprend de son erreur

Objectif : Gagner du temps tout en gardant le contrôle

🤖 Mode Autopilot (Automatique)

"Je le fais tout seul"

Après 20 observations + 95% de réussite :

Le système exécute automatiquement la tâche
Affiche une notification de succès/échec
Tu peux arrêter d'urgence (Ctrl+Pause)
Rollback possible (annule les 3 dernières actions)

Objectif : Automatisation complète des tâches stables

La Stack Technologique

🧠 Intelligence Artificielle

Qwen3-VL (via Ollama)
- Comprend ce que tu fais visuellement
- Génère des descriptions intelligentes
- "Rafraîchir la page" au lieu de "Clic à (42, 1048)"
OWL-v2 / DINO / YOLO
- Détectent les boutons, icônes, champs
- "C'est un bouton Rafraîchir" pas juste "un rectangle bleu"
OpenCLIP + FAISS
- Crée des "empreintes visuelles" des éléments
- Retrouve le même bouton même si l'UI change légèrement
- Recherche ultra-rapide dans des milliers d'images
OpenCV
- Traitement d'images en temps réel
- Template matching pour retrouver des éléments

Le Flux Complet

1. TU TRAVAILLES
   ↓
2. SYSTÈME OBSERVE (Mode Shadow)
   - Capture screenshots
   - Détecte patterns répétitifs
   - Crée signatures visuelles
   ↓
3. SYSTÈME APPREND
   - Qwen3-VL analyse: "C'est un rafraîchissement de page"
   - OWL-v2 détecte: "Bouton circulaire en haut à gauche"
   - FAISS indexe: Empreinte visuelle stockée
   ↓
4. APRÈS 20 OBSERVATIONS
   - Transition vers Mode Assisté
   - "Je pense que tu veux rafraîchir, je le fais ?"
   ↓
5. TU VALIDES 20 FOIS (95% succès)
   - Transition vers Mode Autopilot
   - "Je le fais automatiquement maintenant"
   ↓
6. AUTOMATISATION COMPLÈTE
   - Le système exécute seul
   - Tu supervises via le dashboard
   - Corrections possibles si erreur

Sécurité & Contrôle

🛡️ Liste Blanche

Tu choisis les applications autorisées
Rien ne s'exécute ailleurs (ex: pas dans ta banque en ligne)

📝 Logs Chiffrés

Tout est enregistré (AES-256)
Traçabilité complète pour audit
Qui a fait quoi, quand, pourquoi

🔄 Rollback

Annule les 3 dernières actions
Restaure l'état précédent
Sécurité en cas d'erreur

⏸️ Arrêt d'Urgence

Ctrl+Pause = Stop immédiat
Retour au Mode Assisté
Contrôle total à tout moment

Adaptation Continue

📊 Détection de Changements UI

Si l'interface change (mise à jour logiciel)
Le système détecte la différence (similarité < 70%)
Demande une ré-observation
Réapprend automatiquement

🎯 Scores de Confiance Dynamiques

Chaque action a un score 0-100%
Formule: 60% vision + 30% LLM + 10% historique
Si score < 90% → Retour Mode Assisté
Adaptation automatique

📈 Métriques en Temps Réel

Taux de succès par tâche
Latence moyenne
Nombre de corrections
Dashboard live

Cas d'Usage Concrets

Exemple 1: Rafraîchir une Page Web

Jour 1-5: Tu rafraîchis manuellement (Mode Shadow observe)
Jour 6: "Je peux le faire pour toi ?" (Mode Assisté)
Jour 10: Automatique (Mode Autopilot)

Exemple 2: Remplir un Formulaire

Observation: Tu remplis le même formulaire chaque jour
Apprentissage: Nom, prénom, date dans les bons champs
Suggestion: "Je remplis pour toi ?"
Automatisation: Formulaire rempli en 2 secondes

Exemple 3: Workflow Multi-Étapes

1. Ouvrir Excel
2. Copier données
3. Ouvrir navigateur
4. Coller dans formulaire web
5. Cliquer Enregistrer

→ Tout automatisé après apprentissage

Performance Cible

⚡ Latence : < 400ms observation → suggestion
✅ Précision : > 95% de réussite en Autopilot
🔧 Corrections : < 3% d'erreurs nécessitant correction
💾 Mémoire : ~150 MB RAM pour 50 screenshots
🖥️ GPU : 8 GB VRAM pour Qwen3-VL

L'Innovation Clé

Apprentissage Visuel Pur : Pas besoin de programmer, pas de sélecteurs CSS, pas de scripts. Le système voit comme toi et apprend comme toi.

C'est comme avoir un assistant qui regarde par-dessus ton épaule, mémorise tes habitudes, et te propose gentiment : "Je peux faire ça pour toi la prochaine fois ?"

Architecture Technique

Composants Principaux

EventCapture : Capture clavier/souris en temps réel
VisionAnalysis : Analyse visuelle avec IA
LearningManager : Gestion de l'apprentissage et des transitions de mode
Orchestrator : Coordination de tous les composants
EmbeddingsManager : Gestion FAISS et OpenCLIP
LLMManager : Interface avec Qwen3-VL via Ollama
VisionUtils : Détection avec OWL-v2/DINO/YOLO

Stockage

FAISS Index : data/faiss_index/ - Embeddings visuels
Tâches Apprises : data/user_profiles/ - Signatures + métadonnées
Logs Chiffrés : data/logs/ - Historique complet
Screenshots : En mémoire uniquement (50 derniers)

Technologies

Python 3.12 : Langage principal
PyQt6 : Interface graphique
PyTorch : Modèles de vision
Transformers : OWL-v2, DINO
Ultralytics : YOLO-World
Ollama : Qwen3-VL
FAISS : Recherche de similarité
OpenCV : Traitement d'images
pynput : Capture événements système

État Actuel (MVP Fonctionnel)

✅ Implémenté :

Capture d'événements (clics, touches)
Détection de patterns répétitifs
Analyse visuelle avec signatures
Création de tâches apprises
Intégration Qwen3-VL
Modèles de détection (OWL-v2, DINO, YOLO)
Index FAISS
Interface GUI basique

🚧 À Compléter :

Mode Assisté (suggestions avec validation)
Mode Autopilot (exécution automatique)
Rejeu des tâches apprises
Dashboard de métriques
Rollback d'actions
Détection de changements UI
Transitions de mode automatiques

Prochaines Étapes

Implémenter le rejeu : Exécuter les tâches apprises
Ajouter les suggestions : Mode Assisté avec superposition visuelle
Créer le dashboard : Métriques en temps réel
Implémenter les transitions : Shadow → Assisté → Autopilot
Ajouter le rollback : Annulation d'actions
Tester en conditions réelles : Workflows utilisateur complets

7.4 KiB Raw Permalink Blame History