Dom fceb76de1f feat: gemma4 enrichit les éléments sans OCR via Docker (port 11435)
Quand l'OCR et SomEngine ne trouvent pas de texte sur un élément cliqué,
gemma4 (Ollama 0.20 Docker) analyse le screenshot fenêtre + position du
clic pour identifier l'élément ("voiture elec", "Settings", etc.).

Résultat : 0 clic sans by_text (vs 3 avant). Validation locale 7/8 (87%).
L'onglet Bloc-notes est maintenant correctement identifié.

Docker : ollama/ollama:0.20.2 sur port 11435 (GEMMA4_PORT env var).
Host : Ollama 0.16.3 sur port 11434 (qwen2.5vl grounding).

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-05 11:21:02 +02:00

RPA Vision V3 - 100% Vision-Based Workflow Automation

📊 Status

🚀 PRODUCTION-READY - Phase 12 Complete (77% System Completion)

Latest Update: 14 Décembre 2024

  • 10/13 Phases Complétées - Système mature et fonctionnel
  • Performance Exceptionnelle - 500-6250x plus rapide que requis
  • Architecture Entreprise - 148k+ lignes, 19 modules, 6 specs complètes
  • Innovations Techniques - Self-healing, Multi-modal, GPU management
  • 📊 Audit Complet - Rapport détaillé

Quick Test: bash test_clip.sh

🎯 Vision

RPA basé sur la compréhension sémantique des interfaces, pas sur des coordonnées de clics.

Le système apprend des workflows en observant l'utilisateur et les automatise de manière robuste grâce à une architecture en 5 couches.

🏗️ Architecture en 5 Couches

RawSession (Couche 0)
    ↓
ScreenState (Couche 1) - 4 niveaux d'abstraction
    ↓
UIElement Detection (Couche 2) - Types + Rôles sémantiques
    ↓
State Embedding (Couche 3) - Fusion multi-modale
    ↓
Workflow Graph (Couche 4) - Nodes + Edges + Learning States

📁 Structure

rpa_vision_v3/
├── core/
│   ├── models/          # Couches 0-4 : Structures de données
│   ├── capture/         # Couche 0 : Capture événements + screenshots
│   ├── detection/       # Couche 2 : Détection UI sémantique
│   ├── embedding/       # Couche 3 : Fusion multi-modale + FAISS
│   ├── graph/           # Couche 4 : Construction + Matching + Exécution
│   └── persistence/     # Sauvegarde/Chargement
├── data/
│   ├── sessions/        # RawSessions
│   ├── screen_states/   # ScreenStates
│   ├── embeddings/      # Vecteurs .npy
│   ├── faiss_index/     # Index FAISS
│   └── workflows/       # Workflow Graphs
└── tests/               # Tests unitaires + intégration

🚀 Démarrage Rapide

Installation

# 1. Installer Ollama
curl -fsSL https://ollama.ai/install.sh | sh  # Linux
# ou
brew install ollama  # macOS

# 2. Démarrer Ollama
ollama serve

# 3. Télécharger le modèle VLM
ollama pull qwen3-vl:8b

# 4. Installer dépendances Python
pip install -r requirements.txt

Test Rapide

# Diagnostic système
python3 rpa_vision_v3/examples/diagnostic_vlm.py

# Test de détection
./rpa_vision_v3/test_quick.sh

Utilisation - Détection UI

from rpa_vision_v3.core.detection import create_detector

# Créer le détecteur
detector = create_detector()

# Détecter les éléments UI
elements = detector.detect("screenshot.png")

# Utiliser les résultats
for elem in elements:
    print(f"{elem.type:15s} | {elem.role:20s} | {elem.label}")

Utilisation - Workflow (Phase 4 - À venir)

from rpa_vision_v3.core.models import RawSession, ScreenState, Workflow
from rpa_vision_v3.core.graph import GraphBuilder, NodeMatcher

# 1. Capturer une session
session = RawSession(...)
# ... capturer événements et screenshots

# 2. Construire workflow automatiquement
builder = GraphBuilder(...)
workflow = builder.build_from_session(session)

# 3. Matcher état actuel
matcher = NodeMatcher(...)
current_state = ScreenState(...)
match = matcher.match(current_state, workflow)

# 4. Exécuter action
if match:
    edge = workflow.get_outgoing_edges(match.node.node_id)[0]
    executor.execute_edge(edge, current_state)

📚 Documentation

Guides Principaux

  • Quick Start : QUICK_START.md - Démarrage rapide
  • Prochaines Étapes : NEXT_STEPS.md - Roadmap et Phase 4
  • Phase 3 Complète : PHASE3_COMPLETE.md - Résumé Phase 3

Documentation Technique

  • Spec complète : .kiro/specs/workflow-graph-implementation/
  • Architecture : docs/reference/ARCHITECTURE_VISION_COMPLETE.md
  • Détection Hybride : HYBRID_DETECTION_SUMMARY.md
  • Intégration Ollama : docs/OLLAMA_INTEGRATION.md

🎓 Concepts Clés

RPA 100% Vision

  • Pas de coordonnées (x, y) fixes
  • Rôles sémantiques (primary_action, form_input, etc.)
  • Matching par similarité visuelle et textuelle
  • Robuste aux changements d'UI

Apprentissage Progressif

OBSERVATION (5+ exécutions)
    ↓
COACHING (10+ assistances, succès >90%)
    ↓
AUTO_CANDIDATE (20+ exécutions, succès >95%)
    ↓
AUTO_CONFIRMÉ (validation utilisateur)

State Embedding

Fusion multi-modale :

  • 50% Image (screenshot complet)
  • 30% Texte (texte détecté)
  • 10% Titre (fenêtre)
  • 10% UI (éléments détectés)

🧪 Tests

# Tests unitaires
pytest tests/unit/

# Tests d'intégration
pytest tests/integration/

# Tests de performance
pytest tests/performance/ --benchmark-only

📈 Roadmap - 77% Complété (10/13 Phases)

Phases Complétées

  • Phase 1-2 : Fondations + Embeddings FAISS
  • Phase 4-6 : Détection UI + Workflow Graphs + Action Execution
  • Phase 7-8 : Learning System + Training System
  • Phase 10-12 : GPU Management + Performance + Monitoring

🎯 Phases Restantes

  • Phase 3 : Checkpoint Final (tests storage)
  • Phase 9 : Visual Workflow Builder (90% → 100%)
  • Phase 13 : Tests End-to-End + Documentation finale

🚀 Composants Production-Ready

  • Agent V0 : Capture cross-platform + Encryption
  • Server API : Processing pipeline + Web dashboard
  • Analytics System : Monitoring + Insights + Reporting
  • Self-Healing : Automatic adaptation + Recovery

🤝 Contribution

Voir .kiro/specs/workflow-graph-implementation/tasks.md pour les tâches en cours.

📄 Licence

Propriétaire - Tous droits réservés

Description
No description provided
Readme 665 MiB
Languages
Python 82.6%
TypeScript 11.8%
HTML 2.7%
Shell 1.2%
CSS 1.1%
Other 0.4%