Suppression du .git embarqué dans agent_v0/ — le code est maintenant tracké normalement dans le repo principal. Inclut : agent_v1 (client), server_v1 (streaming), lea_ui (chat client) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
3.8 KiB
3.8 KiB
Évolution Agent V1 - Système d'Apprentissage "Stagiaire Fibre"
Projet : RPA Vision V3
Date : 5 Mars 2026
Status : 🚀 Prêt pour Test POC Clinique
🎯 Philosophie : Le "Stagiaire" Apprenant
Le système n'est pas un automate rigide, mais un stagiaire cognitif qui apprend par imitation.
- L'Expert (Humain) : Travaille sur son PC (Windows/Mac/Linux) avec l'Agent V1.
- Le Stagiaire (IA qwen3-vl) : Observe l'expert via la fibre, analyse les images sur une RTX 5070 et construit un Graphe d'Intention.
- L'Apprentissage : Le stagiaire "réfléchit" en temps réel (Crops 400x400) et se corrige grâce aux interactions humaines.
🛠️ Architecture Technique Agent V1
L'Agent V1 passe d'un mode "Enregistreur" (Batch) à un mode "Capteur Intelligent" (Streaming).
1. Vision Duale & Ciblée (Optimisation qwen3-vl)
- Crops Contextuels : Capture systématique d'une zone de 400x400 pixels autour de chaque clic.
- Contexte Global : Screenshots plein écran pour l'identification de l'environnement.
- Patience Post-Action : Capture automatique 1s après chaque clic pour voir le résultat (animations, chargements).
- Heartbeat : Capture contextuelle toutes les 5s pour voir le logiciel "vivre" entre les clics.
2. Conscience du Contexte UI
- Focus Change : Détection proactive des changements de fenêtre/application.
- Métadonnées Sémantiques : Capture systématique du titre de la fenêtre et du nom de l'exécutable.
- Anonymisation Sélective : Capacité de floutage local (GaussianBlur) sur les zones de texte sensibles détectées.
3. Streaming Haute Performance (Fibre-Ready)
- Async Streaming : Envoi asynchrone des événements JSON et des images via une file d'attente non-bloquante.
- Architecture Micro-Paquets : Plus de gros fichiers ZIP. Le serveur reçoit les données au fil de l'eau sur le port 5002.
🧠 Architecture Serveur (Le Cerveau)
Le serveur (Machine Labo RTX 5070) a été adapté pour le flux temps réel :
1. API Stream (server_v1/api_stream.py)
- Endpoints Dédiés :
/eventpour le JSON,/imagepour les crops/full,/finalizepour clore la session. - Live Sessions : Stockage temporaire en format
.jsonl(robuste aux crashs) avant consolidation finale.
2. Stream Worker (server_v1/worker_stream.py)
- Analyse au fil de l'eau : Le worker surveille le dossier
live_sessionset lance l'inférenceqwen3-vldès qu'un crop arrive. - Construction de Graphe : Le stagiaire commence à relier les points (actions) pour former un graphe de décision pendant que l'expert travaille encore.
🖥️ Portabilité & Exécution Déportée
L'Agent V1 est conçu pour être porté sur Windows et macOS :
- Bibliothèques Cross-Plateforme :
mss(Vision),pynput(Events),PyQt5(UI). - Exécution Déportée : L'architecture prépare le terrain pour que le rejeu puisse se faire sur un PC Windows distant, piloté par les ordres envoyés par la machine Labo via Fibre/WebSockets.
📋 Checklist de Déploiement (Machine Labo)
- Installer les dépendances :
pip install PyQt5 pystray Pillow mss requests psutil - Lancer le Serveur de Streaming :
python agent_v0/server_v1/api_stream.py(Port 5002) - Lancer le Stream Worker :
python agent_v0/server_v1/worker_stream.py - Lancer l'Agent V1 :
python run_agent_v1.pysur le PC de test.
🎨 Interface Utilisateur "Sympa"
L'Agent V1 n'est plus un outil technique froid :
- Tray Icon dynamique : Gris (Repos), Rouge (Apprentissage), Bleu (Sync Fibre).
- Dialogues Humains : Accueil personnalisé, compteur d'actions en temps réel et félicitations en fin de session.
Document généré par l'Assistant pour RPA Vision V3 - Mars 2026