Files
rpa_vision_v3/agent_v0/agent_v1/EVOLUTION_V1_README.md
Dom ae65be2555 chore: ajouter agent_v0/ au tracking git (était un repo embarqué)
Suppression du .git embarqué dans agent_v0/ — le code est maintenant
tracké normalement dans le repo principal.
Inclut : agent_v1 (client), server_v1 (streaming), lea_ui (chat client)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-18 11:12:23 +01:00

3.8 KiB

Évolution Agent V1 - Système d'Apprentissage "Stagiaire Fibre"

Projet : RPA Vision V3
Date : 5 Mars 2026
Status : 🚀 Prêt pour Test POC Clinique


🎯 Philosophie : Le "Stagiaire" Apprenant

Le système n'est pas un automate rigide, mais un stagiaire cognitif qui apprend par imitation.

  1. L'Expert (Humain) : Travaille sur son PC (Windows/Mac/Linux) avec l'Agent V1.
  2. Le Stagiaire (IA qwen3-vl) : Observe l'expert via la fibre, analyse les images sur une RTX 5070 et construit un Graphe d'Intention.
  3. L'Apprentissage : Le stagiaire "réfléchit" en temps réel (Crops 400x400) et se corrige grâce aux interactions humaines.

🛠️ Architecture Technique Agent V1

L'Agent V1 passe d'un mode "Enregistreur" (Batch) à un mode "Capteur Intelligent" (Streaming).

1. Vision Duale & Ciblée (Optimisation qwen3-vl)

  • Crops Contextuels : Capture systématique d'une zone de 400x400 pixels autour de chaque clic.
  • Contexte Global : Screenshots plein écran pour l'identification de l'environnement.
  • Patience Post-Action : Capture automatique 1s après chaque clic pour voir le résultat (animations, chargements).
  • Heartbeat : Capture contextuelle toutes les 5s pour voir le logiciel "vivre" entre les clics.

2. Conscience du Contexte UI

  • Focus Change : Détection proactive des changements de fenêtre/application.
  • Métadonnées Sémantiques : Capture systématique du titre de la fenêtre et du nom de l'exécutable.
  • Anonymisation Sélective : Capacité de floutage local (GaussianBlur) sur les zones de texte sensibles détectées.

3. Streaming Haute Performance (Fibre-Ready)

  • Async Streaming : Envoi asynchrone des événements JSON et des images via une file d'attente non-bloquante.
  • Architecture Micro-Paquets : Plus de gros fichiers ZIP. Le serveur reçoit les données au fil de l'eau sur le port 5002.

🧠 Architecture Serveur (Le Cerveau)

Le serveur (Machine Labo RTX 5070) a été adapté pour le flux temps réel :

1. API Stream (server_v1/api_stream.py)

  • Endpoints Dédiés : /event pour le JSON, /image pour les crops/full, /finalize pour clore la session.
  • Live Sessions : Stockage temporaire en format .jsonl (robuste aux crashs) avant consolidation finale.

2. Stream Worker (server_v1/worker_stream.py)

  • Analyse au fil de l'eau : Le worker surveille le dossier live_sessions et lance l'inférence qwen3-vl dès qu'un crop arrive.
  • Construction de Graphe : Le stagiaire commence à relier les points (actions) pour former un graphe de décision pendant que l'expert travaille encore.

🖥️ Portabilité & Exécution Déportée

L'Agent V1 est conçu pour être porté sur Windows et macOS :

  • Bibliothèques Cross-Plateforme : mss (Vision), pynput (Events), PyQt5 (UI).
  • Exécution Déportée : L'architecture prépare le terrain pour que le rejeu puisse se faire sur un PC Windows distant, piloté par les ordres envoyés par la machine Labo via Fibre/WebSockets.

📋 Checklist de Déploiement (Machine Labo)

  1. Installer les dépendances : pip install PyQt5 pystray Pillow mss requests psutil
  2. Lancer le Serveur de Streaming : python agent_v0/server_v1/api_stream.py (Port 5002)
  3. Lancer le Stream Worker : python agent_v0/server_v1/worker_stream.py
  4. Lancer l'Agent V1 : python run_agent_v1.py sur le PC de test.

🎨 Interface Utilisateur "Sympa"

L'Agent V1 n'est plus un outil technique froid :

  • Tray Icon dynamique : Gris (Repos), Rouge (Apprentissage), Bleu (Sync Fibre).
  • Dialogues Humains : Accueil personnalisé, compteur d'actions en temps réel et félicitations en fin de session.

Document généré par l'Assistant pour RPA Vision V3 - Mars 2026