Files
rpa_vision_v3/docs/DOSSIER_COMMISSAIRE_AUX_APPORTS.md
Dom 447fbb2c6e
Some checks failed
security-audit / Bandit (scan statique) (push) Successful in 12s
security-audit / pip-audit (CVE dépendances) (push) Successful in 10s
security-audit / Scan secrets (grep) (push) Successful in 8s
tests / Lint (ruff + black) (push) Successful in 13s
tests / Tests unitaires (sans GPU) (push) Failing after 14s
tests / Tests sécurité (critique) (push) Has been skipped
chore: sauvegarde complète avant factorisation executor
Point de sauvegarde incluant les fichiers non committés des sessions
précédentes (systemd, docs, agents, GPU manager).

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-20 17:03:44 +02:00

34 KiB
Raw Blame History

Dossier de Présentation Technique — Apport en Nature

Logiciel RPA Vision V3

Document destiné au Commissaire aux Apports


Projet RPA Vision V3 — Plateforme d'automatisation intelligente par vision
Auteur principal Dom — Architecte / Expert principal
Profil 32 ans d'expérience en informatique de pointe (sécurité, IA, infrastructure, robotique, direction de projet, industrialisation)
Historique du projet Premier jet il y a ~5 ans (V1). Version actuelle (V3) développée sur ~12 mois (préparation + développement actif)
Date du présent document 25 février 2026
Nature de l'apport Logiciel, code source, propriété intellectuelle associée

Table des matières

  1. Résumé exécutif
  2. Description fonctionnelle
  3. Architecture technique
  4. Stack technologique
  5. Métriques de développement
  6. Fonctionnalités clés et innovations
  7. État d'avancement
  8. Positionnement concurrentiel
  9. Marché adressable
  10. Inventaire des dépendances open-source et licences
  11. Éléments de valorisation

1. Résumé exécutif

RPA Vision V3 est une plateforme d'automatisation robotisée des processus (RPA) de nouvelle génération. Contrairement aux solutions existantes (UiPath, Automation Anywhere, Blue Prism) qui reposent sur des sélecteurs HTML/UI fragiles, RPA Vision V3 utilise la vision par ordinateur et l'intelligence artificielle multimodale pour comprendre sémantiquement les interfaces utilisateur.

Cette approche résout un problème fondamental du marché RPA : 40 % des robots échouent lorsque les interfaces changent, et 30 % du marché entreprise (environnements Citrix/VDI, mainframes, systèmes air-gapped) reste inaccessible aux solutions conventionnelles.

Le logiciel est le fruit d'un travail intensif de conception, développement et intégration mené par l'auteur principal, combinant expertise en intelligence artificielle, vision par ordinateur et ingénierie logicielle.


2. Description fonctionnelle

Problème résolu

Les solutions RPA traditionnelles présentent trois faiblesses majeures :

  • Fragilité — Les sélecteurs CSS/XPath cassent dès qu'une interface est mise à jour, entraînant 60 à 70 % des budgets RPA en maintenance
  • Inaccessibilité — Les environnements Citrix/VDI, mainframes legacy et systèmes air-gapped (défense, santé) restent hors de portée
  • Rigidité — Aucune capacité d'adaptation autonome aux changements d'interface

Solution apportée

RPA Vision V3 automatise les processus métier en :

  • Voyant l'écran comme un humain (aucun sélecteur, aucune coordonnée fixe)
  • Comprenant sémantiquement les éléments d'interface (bouton, champ de texte, menu, etc.)
  • S'auto-réparant lorsqu'une interface change (4 stratégies de récupération)
  • Apprenant continuellement des exécutions passées pour améliorer sa fiabilité
  • Fonctionnant en local (aucune donnée envoyée dans le cloud — conformité RGPD/défense)

Composants fonctionnels

Composant Rôle
Visual Workflow Builder (VWB) Interface web de conception visuelle de workflows (drag & drop)
Moteur d'exécution Exécute les workflows avec gestion d'erreurs et auto-réparation
Agent de capture Capture cross-plateforme des événements et screenshots
Moteur de détection UI Détection hybride des éléments d'interface (IA + vision classique)
Système d'embeddings Empreintes multimodales des états d'écran (FAISS, CLIP)
Système d'apprentissage Apprentissage progressif et détection de dérive
Dashboard de monitoring Tableau de bord temps réel des exécutions et analytics
Catalogue d'actions 24+ actions prêtes à l'emploi (clic, saisie, navigation, OCR, IA, etc.)

3. Architecture technique

Architecture en 5 couches

Couche 0 : RawSession          — Capture brute (événements + screenshots)
    ↓
Couche 1 : ScreenState         — Analyse multi-modale (4 niveaux d'abstraction)
    ↓
Couche 2 : UIElement Detection  — Détection sémantique des éléments UI
    ↓
Couche 3 : State Embedding      — Fusion multimodale (empreinte digitale d'écran)
    ↓
Couche 4 : Workflow Graph       — Graphe de nœuds + apprentissage

Structure du projet

rpa_vision_v3/
├── core/                           # Moteur IA (192 fichiers Python)
│   ├── analytics/                  # Collecte et reporting d'analytics
│   ├── capture/                    # Capture d'écran et d'événements
│   ├── detection/                  # Détection UI hybride (OWL-v2 + OpenCV + VLM)
│   ├── embedding/                  # Embeddings CLIP, FAISS, fusion multimodale
│   ├── execution/                  # Exécution des actions et robustesse
│   ├── healing/                    # Auto-réparation (4 stratégies)
│   ├── learning/                   # Apprentissage continu
│   ├── matching/                   # Matching hiérarchique
│   ├── monitoring/                 # Métriques et ordonnancement
│   ├── security/                   # Audit, tokens, validation
│   ├── system/                     # Circuit breaker, auto-heal manager
│   └── training/                   # Entraînement offline
│
├── visual_workflow_builder/        # Application web full-stack
│   ├── frontend_v4/               # React 18 + TypeScript + Vite
│   └── backend/                   # Flask + SocketIO + SQLAlchemy
│       ├── actions/               # Catalogue de 24+ actions
│       ├── api/                   # Endpoints REST et WebSocket
│       ├── contracts/             # Contrats d'interface
│       └── services/              # Services métier (OCR, détection, etc.)
│
├── agent_v0/                      # Agent de capture cross-plateforme
├── server/                        # API de traitement (FastAPI)
├── web_dashboard/                 # Dashboard de monitoring
├── gui/                           # Interface desktop (PyQt5)
├── models/                        # Modèles IA pré-entraînés
└── tests/                         # Suite de tests

4. Stack technologique

Intelligence artificielle et Machine Learning

Technologie Rôle Licence
PyTorch 2.x Framework de deep learning BSD-3-Clause
OpenCLIP (ViT-B-32) Embeddings vision-langage (512 dimensions) MIT
FAISS Recherche vectorielle (1M+ embeddings, <100ms) MIT / BSD-3-Clause
Qwen3-VL 8B (via Ollama) Modèle de vision-langage local Apache-2.0
OWL-v2 Détection d'objets zero-shot Apache-2.0
HuggingFace Transformers Pipeline de modèles IA Apache-2.0
docTR (Mindee) OCR (reconnaissance de caractères) Apache-2.0

Vision par ordinateur

Technologie Rôle Licence
OpenCV 4.x Traitement d'image Apache-2.0
Pillow Manipulation d'images MIT-CMU
MSS Capture d'écran rapide MIT

Backend

Technologie Rôle Licence
Python 3.12 Langage principal PSF
Flask 3.0 Framework web (VWB) BSD
FastAPI API de traitement (serveur) MIT
Flask-SocketIO Communication temps réel MIT
SQLAlchemy 2.0 ORM base de données MIT
Redis Cache et files d'attente MIT
Pydantic Validation de données MIT

Frontend

Technologie Rôle Licence
React 18 Framework UI MIT
TypeScript 5.x Typage statique Apache-2.0
Vite 5 Build tool MIT
@xyflow/react 12 Graphes visuels de workflows MIT

Sécurité et infrastructure

Technologie Rôle Licence
AES-256-GCM Chiffrement des sessions (standard cryptographique)
Authentification par tokens Contrôle d'accès Développement interne
Audit JSONL Journalisation sécurisée Développement interne

5. Métriques de développement

Volume de code source (hors dépendances, hors tests)

Composant Fichiers Lignes de code Langage
Core (moteur IA) 192 ~63 800 Python
VWB Backend 115 ~42 100 Python
VWB Frontend 24 ~6 260 TypeScript/React
Server API 8 ~2 900 Python
Agent V0 25 ~7 700 Python
Tests 177 ~66 900 Python
Total ~541 ~189 660

Historique de développement

Le logiciel RPA Vision V3 est le résultat de trois itérations majeures sur une période de 5 ans :

Version Période Rôle
V1 (premier jet) ~2021 Preuve de concept — exploration de l'approche vision pour le RPA
V2 (évolution) 2022-2024 Prototypage avancé — validation des choix architecturaux
V3 (version actuelle) mars 2025 — février 2026 Développement complet — architecture 5 couches, production-ready

Dépôt git V3 (code source livré) :

Métrique Valeur
Nombre de commits 52
Premier commit V3 7 janvier 2026
Dernier commit 18 février 2026
Contributeur principal Dom
Insertions totales (git) ~479 000 lignes

Note

: Le dépôt git ne reflète que la phase finale de codage de la V3. Le travail de conception, de R&D et les itérations V1/V2 qui ont fondé l'architecture ne figurent pas dans l'historique de commits mais constituent une part essentielle de la valeur intellectuelle du projet.

Effort réel de développement

Phase Durée Intensité Heures estimées
R&D initiale / V1 et V2 (~5 ans) ~3 ans cumulés Variable Non quantifié — valeur de savoir-faire accumulé
Travail préparatoire V3 (conception, veille, architecture) ~4 mois ~6 h/jour ~530 h
Développement actif V3 ~8 mois ~10-12 h/jour ~1 760 à 2 100 h
Total effort V3 ~12 mois ~2 300 à 2 600 h

Profil de l'auteur

  • 58 ans, 32 ans d'expérience en informatique de pointe
  • Spécialisations : sécurité, intelligence artificielle (tous niveaux), infrastructure, robotique
  • Capacité démontrée à créer des systèmes from scratch, du POC au MVP puis à l'industrialisation
  • Direction d'entreprise, direction de projet, développement
  • Créateur d'un framework de gestion de projets faisant appel aux nouvelles technologies
  • Profil équivalent marché : Architecte / Expert principal IA — TJM de référence : 1 200 €/jour

6. Fonctionnalités clés et innovations

6.1 Fusion multimodale d'états d'écran

Chaque état d'écran est résumé en une empreinte vectorielle combinant 4 modalités :

  • 50 % Image (screenshot complet via CLIP)
  • 30 % Texte (texte détecté)
  • 10 % Titre (fenêtre active)
  • 10 % UI (éléments détectés)

Performance : 0,02 ms par embedding (contrainte : <100 ms) — 500x plus rapide que le standard.

6.2 Auto-réparation en 4 stratégies

Lorsqu'un élément d'interface n'est plus trouvé, le système applique en cascade :

  1. Variantes sémantiques — Essai de variations visuelles/textuelles
  2. Fallback spatial — Recherche dans le voisinage
  3. Adaptation temporelle — Ajustement des temps d'attente
  4. Transformation de format — Transformation des données d'entrée

Taux de récupération : >95 % des erreurs transitoires, en <30 secondes.

6.3 Apprentissage progressif

OBSERVATION (5+ exécutions)
    ↓
COACHING (10+ assistances, >90 % de succès)
    ↓
AUTO_CANDIDATE (20+ exécutions, >95 % de succès)
    ↓
AUTO_CONFIRMED (validation utilisateur)

Le système détecte automatiquement les dérives d'interface et crée des variantes.

6.4 Détection UI hybride

Combine trois approches complémentaires :

  • OWL-v2 : Détection zero-shot (aucun entraînement nécessaire)
  • OpenCV : Techniques de vision classique
  • VLM (Qwen3-VL) : Compréhension sémantique via modèle de vision-langage

Détecte 10+ types d'éléments UI avec rôles sémantiques (primary_action, form_input, etc.).

6.5 Circuit breaker et résilience

Système de disjoncteur à 5 états (RUNNING, DEGRADED, QUARANTINED, PAUSED, ROLLBACK) inspiré des patterns de production enterprise, avec journalisation d'audit complète.

6.6 Exécution 100 % locale

Aucune dépendance cloud. Tous les modèles IA tournent en local (GPU), garantissant la conformité RGPD et l'utilisation en environnements classifiés/air-gapped.


7. État d'avancement

Phases complétées (10/13 — 77 %)

Phase Description Statut
1-2 Fondations + Embeddings FAISS Terminé
4-6 Détection UI + Graphes Workflow + Exécution Terminé
7-8 Système d'apprentissage + Entraînement Terminé
10-12 Gestion GPU + Performance + Monitoring Terminé

Phases restantes (3/13 — 23 %)

Phase Description Statut
3 Checkpoint final (tests de stockage) En cours
9 Visual Workflow Builder (90 % → 100 %) En cours
13 Tests end-to-end + Documentation finale À faire

Composants prêts pour la production

  • Agent de capture cross-plateforme avec chiffrement AES-256
  • Pipeline de traitement serveur + dashboard web
  • Système d'analytics et monitoring temps réel
  • Auto-réparation et adaptation automatique

8. Positionnement concurrentiel

Comparaison avec les solutions existantes

Critère UiPath / AA / BluePrism RPA Vision V3
Méthode de détection Sélecteurs CSS/XPath Vision par IA
Robustesse aux changements UI Faible (cassure fréquente) Forte (auto-réparation)
Environnements Citrix/VDI Support limité/payant Natif
Mainframes / Legacy Non supporté Supporté
Systèmes air-gapped Non Oui (100 % local)
Apprentissage autonome Non Oui (4 niveaux)
Coût de maintenance 60-70 % du budget Réduit par auto-réparation
Cloud requis Souvent Jamais

Avance technologique estimée

  • 2 à 3 ans d'avance sur l'approche vision-native par rapport aux acteurs traditionnels
  • Architecture conçue dès le départ pour la vision (pas un ajout a posteriori)
  • Score de moat technique : 85/100 (analyse détaillée disponible)

9. Marché adressable

Segments cibles (sous-servis par les solutions existantes)

Segment Taille estimée Problème
Citrix / VDI 3,9 Mds $ Interfaces sans DOM accessible
Legacy / Mainframe 2,6 Mds $ Aucun sélecteur disponible
Défense / Air-gapped 1,3 Mds $ Exigence 100 % local, pas de cloud
Santé (RGPD) 1,8 Mds $ Données sensibles, conformité stricte
Total adressable ~9,6 Mds $

Marché RPA global

  • 2024 : 13 milliards — **2030** : 30 milliards (CAGR 15 %)
  • La transition vers l'IA/vision est un mouvement de fond du secteur

10. Inventaire des dépendances open-source et licences

Le logiciel RPA Vision V3 est un développement propriétaire original qui s'appuie sur des bibliothèques open-source. La propriété intellectuelle réside dans :

  • L'architecture 5 couches et sa conception
  • Les algorithmes de fusion multimodale
  • Le système d'auto-réparation en 4 stratégies
  • Le système d'apprentissage progressif
  • Le catalogue d'actions et l'intégration complète
  • Le Visual Workflow Builder

10.1 Dépendances Python directes (requirements.txt)

Package Version Licence Usage
numpy 2.2.x BSD Calcul numérique
torch 2.9+ BSD-3-Clause Deep learning
torchvision 0.24+ BSD Utilitaires vision
transformers 4.57+ Apache-2.0 Modèles HuggingFace
open_clip_torch 3.2.x MIT Embeddings CLIP
faiss-cpu 1.13.x MIT / BSD-3-Clause Recherche vectorielle
Pillow 12.x MIT-CMU Manipulation d'images
PyQt5 5.15.x GPL v3 Interface desktop (GUI)
requests 2.32.x Apache-2.0 Requêtes HTTP
scikit-learn 1.7.x BSD-3-Clause Machine learning classique
opencv-python 4.12.x Apache-2.0 Vision par ordinateur
mss 10.1.x MIT Capture d'écran
python-doctr 1.0.x Apache-2.0 OCR (reconnaissance de texte)
pytest 9.x MIT Tests unitaires
hypothesis 6.x MPL-2.0 Tests property-based

10.2 Dépendances VWB Backend

Package Version Licence Usage
Flask 3.0.x BSD Framework web
Flask-SocketIO 5.3.x MIT WebSocket temps réel
Flask-CORS 4.0.x MIT Cross-origin
SQLAlchemy 2.0.x MIT ORM base de données
Flask-SQLAlchemy 3.1.x BSD-3-Clause Intégration Flask/SQLAlchemy
marshmallow 3.20.x MIT Sérialisation
redis 5.0.x MIT Cache
pydantic 2.5.x MIT Validation de données
jsonschema 4.20.x MIT Validation JSON
python-dotenv 1.0.x BSD-3-Clause Variables d'environnement
black 23.x MIT Formatage de code
flake8 6.x MIT Linting
mypy 1.7.x MIT Vérification de types

10.3 Dépendances Server (FastAPI)

Package Version Licence Usage
fastapi 0.115+ MIT API REST
uvicorn 0.30+ BSD-3-Clause Serveur ASGI
python-multipart 0.0.6+ Apache-2.0 Upload de fichiers
cryptography 41+ Apache-2.0 / BSD-3-Clause Chiffrement AES-256

10.4 Dépendances JavaScript/Frontend (package.json)

Package Version Licence Usage
react 18.3.x MIT Framework UI
react-dom 18.3.x MIT Rendu DOM
@xyflow/react 12.10.x MIT Éditeur visuel de graphes
typescript 5.x Apache-2.0 Typage statique
vite 5.x MIT Build tool
@vitejs/plugin-react 4.x MIT Plugin React pour Vite
@mui/material 7.x MIT Composants UI Material Design
@reduxjs/toolkit 2.x MIT Gestion d'état
axios 1.x MIT Client HTTP
socket.io-client 4.x MIT WebSocket client

10.5 Dépendances transitives notables

Package Licence Catégorie
huggingface-hub Apache-2.0 IA / téléchargement de modèles
safetensors Apache-2.0 Sérialisation de modèles
tokenizers Apache-2.0 Tokenisation NLP
timm Apache-2.0 Modèles de vision
scipy BSD Calcul scientifique
networkx BSD Manipulation de graphes
tqdm MIT / MPL-2.0 Barres de progression
protobuf BSD-3-Clause Sérialisation de données
PyYAML MIT Parsing YAML
certifi MPL-2.0 Certificats SSL

10.6 Bibliothèques NVIDIA CUDA (15 packages)

Package Licence
nvidia-cublas-cu12, nvidia-cuda-cupti-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-runtime-cu12, nvidia-cudnn-cu12, nvidia-cufft-cu12, nvidia-cufile-cu12, nvidia-curand-cu12, nvidia-cusolver-cu12, nvidia-cusparse-cu12, nvidia-cusparselt-cu12, nvidia-nccl-cu12, nvidia-nvjitlink-cu12, nvidia-nvshmem-cu12, nvidia-nvtx-cu12 NVIDIA Proprietary (usage gratuit, redistribution encadrée)

10.7 Synthèse des licences

Type de licence Nombre de packages Compatibilité commerciale
MIT ~40 Permissive — usage commercial libre
Apache-2.0 ~18 Permissive — usage commercial libre
BSD / BSD-3-Clause ~22 Permissive — usage commercial libre
MPL-2.0 2 Permissive (fichier par fichier)
GPL v3 1 (PyQt5) Copyleft — voir note ci-dessous
LGPL v3 1 (PyQt5-Qt5) Copyleft faible
NVIDIA Proprietary 15 Gratuit, redistribution encadrée

10.8 Notes de conformité

  1. PyQt5 (GPL v3) — Utilisé uniquement pour l'interface desktop optionnelle (gui/, 3 fichiers). L'application principale (Visual Workflow Builder) utilise React et n'est pas concernée. Option : migration vers PySide6 (LGPL) ou licence commerciale Qt si distribution du composant GUI.

  2. NVIDIA CUDA — Les bibliothèques CUDA sont propriétaires mais gratuites. Leur usage est conforme aux conditions de la licence NVIDIA pour le développement et le déploiement.

  3. Majorité permissive — Plus de 80 % des dépendances utilisent des licences permissives (MIT, Apache-2.0, BSD), pleinement compatibles avec un usage commercial et une distribution propriétaire.

  4. Code propriétaire — L'intégralité du code source développé spécifiquement pour RPA Vision V3 (architecture, algorithmes, intégrations) est propriétaire et constitue l'essentiel de la valeur de l'apport.


11. Éléments de valorisation

11.1 Coût de développement réel (méthode des coûts historiques)

Investissement effectivement consenti par l'auteur pour la version 3 :

Poste Calcul Montant
Travail préparatoire (conception, veille, architecture) ~530 h × 150 €/h (TJM 1 200 € ÷ 8h) 79 500 €
Développement actif V3 ~2 100 h × 150 €/h 315 000 €
Sous-total main-d'œuvre V3 ~2 630 h 394 500 €
Matériel — station de travail (AMD Ryzen 9, 128 Go RAM, RTX 5070) 3 000 €
Matériel — Jetson Nano (tests embarqués) 400 €
Coûts IA (API, modèles, inférence) 200 €
Total coût historique V3 ~398 100 €

Note

: Ce calcul ne valorise pas les ~3 ans de R&D cumulés sur les versions 1 et 2, qui ont directement alimenté la conception de la V3 (choix d'architecture, sélection des modèles IA, retours d'expérience). Ce savoir-faire accumulé est inclus dans la valeur de l'apport mais non chiffré séparément.

11.2 Coût de reproduction par un tiers (méthode recommandée)

Le coût de reproduction estime l'investissement qu'une entreprise tierce devrait consentir pour développer un logiciel fonctionnellement équivalent en partant de zéro, sans bénéficier des 5 ans d'itérations V1/V2.

Scénario A — Profil unique équivalent (improbable)

Poste Calcul Montant
Architecte IA senior multi-compétences 2 630 h × 150 €/h 394 500 €

Ce scénario suppose l'existence d'un profil aussi polyvalent (IA + full-stack + sécurité + infra + vision). Ce type de profil est extrêmement rare sur le marché.

Scénario B — Équipe spécialisée (réaliste)

Une entreprise devrait constituer une équipe de 3-4 personnes sur 12 à 18 mois :

Poste Durée TJM Montant
Lead architect / Chef de projet IA 12 mois × 22 j 1 200 €/j 316 800 €
Ingénieur ML / Vision par ordinateur 10 mois × 22 j 900 €/j 198 000 €
Développeur full-stack senior (React + Python) 10 mois × 22 j 700 €/j 154 000 €
DevOps / Infra GPU (temps partiel) 4 mois × 22 j 650 €/j 57 200 €
Sous-total main-d'œuvre 726 000 €
Matériel et infrastructure (GPU, serveurs de dev) 5 000 €
Coûts IA (API, modèles, calcul) 2 000 €
Marge d'incertitude technique (+15 %) 109 950 €
Total coût de reproduction ~843 000 €

Justification de la marge : Un tiers ne bénéficierait pas des retours d'expérience des V1/V2 et devrait absorber des cycles de recherche supplémentaires (choix de modèles, benchmarks, impasses techniques).

Synthèse des valorisations

Méthode Montant Commentaire
Coût historique (V3 seule) ~398 000 € Plancher — ne valorise pas la R&D V1/V2
Reproduction par un tiers (équipe) ~843 000 € Estimation réaliste — inclut marge d'incertitude
Fourchette de valorisation recommandée 400 000 € — 850 000 € Selon la méthode retenue par le commissaire

11.3 Actifs incorporels composant l'apport

Actif Description Quantification
Code source propriétaire Moteur IA, VWB, Agent, Server, Dashboard ~190 000 lignes (Python, TypeScript)
Architecture logicielle Conception originale 5 couches, documentation 14 modules architecturaux
Algorithmes propriétaires Fusion multimodale, auto-réparation 4 stratégies, apprentissage progressif 4 niveaux Développements originaux
Catalogue d'actions Actions prêtes à l'emploi pour l'automatisation 24+ actions
Suite de tests Tests unitaires, intégration, property-based ~67 000 lignes
Savoir-faire accumulé 5 ans d'itérations (V1 → V3), intégration de modèles IA en pipeline local Non quantifiable — valeur intrinsèque
Documentation technique Architecture, API, guides, spécifications Corpus documentaire complet

11.3 Comparables marché

Solution Valorisation CA / ARR Source
UiPath (NYSE: PATH) ~8,8 Mds $ (capitalisation déc. 2025) CA : 1,43 Md / ARR : 1,67 Md (FY2025) UiPath IR — FY2025 Results
Automation Anywhere 6,8 Mds $ (Series D, oct. 2025) Non divulgué (privé) Tracxn — AA Funding
SS&C Blue Prism 1,6 Md $ (acquisition par SS&C, 2022) ~211 M$ (post-acquisition) SS&C Blue Prism Acquisition
Sema4.ai (ex-Robocorp) 30,5 M$ levés (2024) Early stage Sema4.ai — PR Newswire

Contexte : UiPath, Automation Anywhere et SS&C Blue Prism sont identifiés comme « Leaders » dans le Gartner Magic Quadrant for RPA 2025 (publié juin 2025, 7e année consécutive pour les trois). RPA Vision V3 se positionne dans le segment des solutions IA-natives pour RPA, avec une approche différenciante (vision pure, 100 % local) ciblant les segments inaccessibles aux leaders actuels.


12. Références et sources

12.1 Marché RPA — Taille et prévisions

Source Donnée Lien
Grand View Research Marché RPA mondial : 4,68 Mds (2025) → 35,84 Mds (2033), CAGR 29,0 % Grand View Research — RPA Market
Precedence Research Marché RPA : 28,31 Mds (2025) → 247,34 Mds (2035), CAGR 24,2 % Precedence Research — RPA Market
Gartner Marché RPA : 3,79 Mds (2024) → 30,85 Mds (2030), CAGR 43,9 % Gartner — Market Share Analysis RPA 2024
Statista Prévision marché RPA mondial jusqu'en 2030 Statista — RPA Market Size

Note

: Les écarts entre sources reflètent des périmètres de définition différents (RPA strict vs. hyperautomation). Le consensus est un CAGR de 24 à 44 % selon le périmètre.

12.2 Produits concurrents — Données financières

Acteur Donnée Source
UiPath — CA FY2025 : 1,43 Md , croissance +9 %, ARR 1,67 Md , 2 292 clients >100k$ ARR UiPath — Q4 & FY2025 Results
UiPath — Capitalisation boursière ~8,8 Mds $ (déc. 2025) MacroTrends — UiPath Market Cap
Automation Anywhere — Série D : 290 M$ levés, valorisation 6,8 Mds (oct. 2025), total levé : 840 M Tracxn — AA Funding
SS&C Blue Prism — Acquis par SS&C Technologies pour 1,6 Md $ (mars 2022) SS&C — Blue Prism Acquisition
Sema4.ai (acquéreur de Robocorp) — 30,5 M$ levés, Robocorp acquis janv. 2024 PR Newswire — Sema4.ai

12.3 Analystes et classements sectoriels

Source Donnée Lien
Gartner Magic Quadrant for RPA 2025 Leaders : UiPath, Automation Anywhere, SS&C Blue Prism (7e année consécutive). 13 éditeurs évalués. Gartner — MQ RPA 2025
UiPath — Communiqué leader MQ 2025 Reconnu leader pour la 7e année, meilleur score « Ability to Execute » UiPath — MQ 2025 Press Release

12.4 Problématique du marché — Fragilité et échecs RPA

Source Donnée Lien
Ernst & Young 30 à 50 % des projets RPA échouent initialement Flobotics — RPA Statistics
Blueprint Software Le coût de licence ne représente que 25-30 % du coût total RPA ; la maintenance et le support représentent 15-20 % de l'investissement initial par an Blueprint — RPA Cost
Blueprint Software Les bots cassent régulièrement lors de changements d'interface (break-fix cycles) ; la maintenance est le premier poste de coût récurrent Blueprint — Reduce RPA Maintenance
Worksoft La fragilité des bots face aux changements UI est le principal défi technique du RPA (« bot fragility ») Worksoft — Solving Bot Fragility
Deloitte Enquête mondiale sur l'adoption RPA : 62 % citent l'intégration comme barrière principale, 55 % le manque de compétences Deloitte — Global RPA Survey

12.5 Problématique Citrix/VDI — Marché sous-servi

Source Donnée Lien
PwC India Livre blanc : « Robotic Process Automation in a Virtual Environment » — les environnements VDI ne fournissent aucun objet DOM exploitable, l'automatisation repose uniquement sur la reconnaissance d'image PwC — RPA in Virtual Environment (PDF)
Accelirate « Challenges of RPA in Citrix Environment » — absence totale d'Object IDs, le bot ne voit qu'une image pixel Accelirate — RPA & Citrix
Ultima (IA Connect) Solution spécialisée RPA pour Citrix/VDI — confirme le besoin non couvert par les plateformes standard Ultima — IA Connect for Citrix
Leapwork « Overcoming Common Citrix Automation Challenges » — les outils RPA classiques échouent en environnement Citrix Leapwork — Citrix Challenges

12.6 Technologies IA utilisées — Publications et documentation

Technologie Référence
CLIP (OpenAI, 2021) Radford et al., « Learning Transferable Visual Models From Natural Language Supervision » — arXiv:2103.00020
FAISS (Meta AI) Johnson et al., « Billion-scale similarity search with GPUs » — arXiv:1702.08734
OWL-v2 (Google, 2023) Minderer et al., « Scaling Open-Vocabulary Object Detection » — arXiv:2306.09683
docTR (Mindee) OCR open-source — GitHub: mindee/doctr
Qwen2.5-VL (Alibaba) Modèle vision-langage — HuggingFace: Qwen
PyTorch (Meta AI) Framework de deep learning — pytorch.org
OpenCV Bibliothèque de vision par ordinateur — opencv.org

Annexes

A. Liste des modules du moteur Core (192 fichiers)

Les modules couvrent : analytics, capture, detection, embedding, execution, graph, healing, learning, matching, models, monitoring, security, system, training.

B. Catalogue des 24 actions VWB

Vision UI (14) : click_anchor, type_text, screenshot_evidence, extract_text, hover, drag_drop, select_option, scroll, wait_element, verify_element, double_click, right_click, keyboard_shortcut, focus_element

Navigation (2) : navigate_to_url, browser_back

Data (2) : download_to_folder, extraire_tableau

Database (3) : save_data, load_data, db_manager

Validation (2) : verify_element_exists, verify_text_content

Intelligence (1) : analyze_with_ai

C. Références documentaires internes

  • ARCHITECTURE_VISION_COMPLETE.md — Architecture complète 5 couches
  • PITCH_INVESTISSEURS_RPA_VISION_V3.md — Pitch investisseurs
  • ANALYSE_MOAT_RPA_VISION_V3.md — Analyse concurrentielle détaillée
  • QUICK_START.md — Guide de démarrage rapide

Document généré le 25 février 2026 — RPA Vision V3