# Évolution Agent V1 - Système d'Apprentissage "Stagiaire Fibre" **Projet :** RPA Vision V3 **Date :** 5 Mars 2026 **Status :** 🚀 Prêt pour Test POC Clinique --- ## 🎯 Philosophie : Le "Stagiaire" Apprenant Le système n'est pas un automate rigide, mais un **stagiaire cognitif** qui apprend par imitation. 1. **L'Expert (Humain) :** Travaille sur son PC (Windows/Mac/Linux) avec l'Agent V1. 2. **Le Stagiaire (IA qwen3-vl) :** Observe l'expert via la fibre, analyse les images sur une RTX 5070 et construit un **Graphe d'Intention**. 3. **L'Apprentissage :** Le stagiaire "réfléchit" en temps réel (Crops 400x400) et se corrige grâce aux interactions humaines. --- ## 🛠️ Architecture Technique Agent V1 L'Agent V1 passe d'un mode "Enregistreur" (Batch) à un mode **"Capteur Intelligent" (Streaming)**. ### 1. Vision Duale & Ciblée (Optimisation qwen3-vl) - **Crops Contextuels :** Capture systématique d'une zone de **400x400 pixels** autour de chaque clic. - **Contexte Global :** Screenshots plein écran pour l'identification de l'environnement. - **Patience Post-Action :** Capture automatique 1s après chaque clic pour voir le résultat (animations, chargements). - **Heartbeat :** Capture contextuelle toutes les 5s pour voir le logiciel "vivre" entre les clics. ### 2. Conscience du Contexte UI - **Focus Change :** Détection proactive des changements de fenêtre/application. - **Métadonnées Sémantiques :** Capture systématique du titre de la fenêtre et du nom de l'exécutable. - **Anonymisation Sélective :** Capacité de floutage local (GaussianBlur) sur les zones de texte sensibles détectées. ### 3. Streaming Haute Performance (Fibre-Ready) - **Async Streaming :** Envoi asynchrone des événements JSON et des images via une file d'attente non-bloquante. - **Architecture Micro-Paquets :** Plus de gros fichiers ZIP. Le serveur reçoit les données au fil de l'eau sur le port 5002. --- ## 🧠 Architecture Serveur (Le Cerveau) Le serveur (Machine Labo RTX 5070) a été adapté pour le flux temps réel : ### 1. API Stream (`server_v1/api_stream.py`) - **Endpoints Dédiés :** `/event` pour le JSON, `/image` pour les crops/full, `/finalize` pour clore la session. - **Live Sessions :** Stockage temporaire en format `.jsonl` (robuste aux crashs) avant consolidation finale. ### 2. Stream Worker (`server_v1/worker_stream.py`) - **Analyse au fil de l'eau :** Le worker surveille le dossier `live_sessions` et lance l'inférence `qwen3-vl` dès qu'un crop arrive. - **Construction de Graphe :** Le stagiaire commence à relier les points (actions) pour former un graphe de décision pendant que l'expert travaille encore. --- ## 🖥️ Portabilité & Exécution Déportée L'Agent V1 est conçu pour être porté sur **Windows** et **macOS** : - **Bibliothèques Cross-Plateforme :** `mss` (Vision), `pynput` (Events), `PyQt5` (UI). - **Exécution Déportée :** L'architecture prépare le terrain pour que le rejeu puisse se faire sur un PC Windows distant, piloté par les ordres envoyés par la machine Labo via Fibre/WebSockets. --- ## 📋 Checklist de Déploiement (Machine Labo) 1. **Installer les dépendances :** `pip install PyQt5 pystray Pillow mss requests psutil` 2. **Lancer le Serveur de Streaming :** `python agent_v0/server_v1/api_stream.py` (Port 5002) 3. **Lancer le Stream Worker :** `python agent_v0/server_v1/worker_stream.py` 4. **Lancer l'Agent V1 :** `python run_agent_v1.py` sur le PC de test. --- ## 🎨 Interface Utilisateur "Sympa" L'Agent V1 n'est plus un outil technique froid : - **Tray Icon dynamique :** Gris (Repos), Rouge (Apprentissage), Bleu (Sync Fibre). - **Dialogues Humains :** Accueil personnalisé, compteur d'actions en temps réel et félicitations en fin de session. --- *Document généré par l'Assistant pour RPA Vision V3 - Mars 2026*