Files

Dom ae65be2555 chore: ajouter agent_v0/ au tracking git (était un repo embarqué)

Suppression du .git embarqué dans agent_v0/ — le code est maintenant
tracké normalement dans le repo principal.
Inclut : agent_v1 (client), server_v1 (streaming), lea_ui (chat client)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-18 11:12:23 +01:00

3.8 KiB

Raw Blame History

Évolution Agent V1 - Système d'Apprentissage "Stagiaire Fibre"

Projet : RPA Vision V3
Date : 5 Mars 2026
Status : 🚀 Prêt pour Test POC Clinique

🎯 Philosophie : Le "Stagiaire" Apprenant

Le système n'est pas un automate rigide, mais un stagiaire cognitif qui apprend par imitation.

L'Expert (Humain) : Travaille sur son PC (Windows/Mac/Linux) avec l'Agent V1.
Le Stagiaire (IA qwen3-vl) : Observe l'expert via la fibre, analyse les images sur une RTX 5070 et construit un Graphe d'Intention.
L'Apprentissage : Le stagiaire "réfléchit" en temps réel (Crops 400x400) et se corrige grâce aux interactions humaines.

🛠️ Architecture Technique Agent V1

L'Agent V1 passe d'un mode "Enregistreur" (Batch) à un mode "Capteur Intelligent" (Streaming).

1. Vision Duale & Ciblée (Optimisation qwen3-vl)

Crops Contextuels : Capture systématique d'une zone de 400x400 pixels autour de chaque clic.
Contexte Global : Screenshots plein écran pour l'identification de l'environnement.
Patience Post-Action : Capture automatique 1s après chaque clic pour voir le résultat (animations, chargements).
Heartbeat : Capture contextuelle toutes les 5s pour voir le logiciel "vivre" entre les clics.

2. Conscience du Contexte UI

Focus Change : Détection proactive des changements de fenêtre/application.
Métadonnées Sémantiques : Capture systématique du titre de la fenêtre et du nom de l'exécutable.
Anonymisation Sélective : Capacité de floutage local (GaussianBlur) sur les zones de texte sensibles détectées.

3. Streaming Haute Performance (Fibre-Ready)

Async Streaming : Envoi asynchrone des événements JSON et des images via une file d'attente non-bloquante.
Architecture Micro-Paquets : Plus de gros fichiers ZIP. Le serveur reçoit les données au fil de l'eau sur le port 5002.

🧠 Architecture Serveur (Le Cerveau)

Le serveur (Machine Labo RTX 5070) a été adapté pour le flux temps réel :

1. API Stream (`server_v1/api_stream.py`)

Endpoints Dédiés : /event pour le JSON, /image pour les crops/full, /finalize pour clore la session.
Live Sessions : Stockage temporaire en format .jsonl (robuste aux crashs) avant consolidation finale.

2. Stream Worker (`server_v1/worker_stream.py`)

Analyse au fil de l'eau : Le worker surveille le dossier live_sessions et lance l'inférence qwen3-vl dès qu'un crop arrive.
Construction de Graphe : Le stagiaire commence à relier les points (actions) pour former un graphe de décision pendant que l'expert travaille encore.

🖥️ Portabilité & Exécution Déportée

L'Agent V1 est conçu pour être porté sur Windows et macOS :

Bibliothèques Cross-Plateforme : mss (Vision), pynput (Events), PyQt5 (UI).
Exécution Déportée : L'architecture prépare le terrain pour que le rejeu puisse se faire sur un PC Windows distant, piloté par les ordres envoyés par la machine Labo via Fibre/WebSockets.

📋 Checklist de Déploiement (Machine Labo)

Installer les dépendances : pip install PyQt5 pystray Pillow mss requests psutil
Lancer le Serveur de Streaming : python agent_v0/server_v1/api_stream.py (Port 5002)
Lancer le Stream Worker : python agent_v0/server_v1/worker_stream.py
Lancer l'Agent V1 : python run_agent_v1.py sur le PC de test.

🎨 Interface Utilisateur "Sympa"

L'Agent V1 n'est plus un outil technique froid :

Tray Icon dynamique : Gris (Repos), Rouge (Apprentissage), Bleu (Sync Fibre).
Dialogues Humains : Accueil personnalisé, compteur d'actions en temps réel et félicitations en fin de session.

Document généré par l'Assistant pour RPA Vision V3 - Mars 2026

3.8 KiB Raw Blame History