Dom/rpa_vision_v3

Fork 0

Files

Dom 447fbb2c6e

security-audit / Bandit (scan statique) (push) Successful in 12s

Details

security-audit / pip-audit (CVE dépendances) (push) Successful in 10s

Details

security-audit / Scan secrets (grep) (push) Successful in 8s

Details

tests / Lint (ruff + black) (push) Successful in 13s

Details

tests / Tests unitaires (sans GPU) (push) Failing after 14s

Details

tests / Tests sécurité (critique) (push) Has been skipped

Details

chore: sauvegarde complète avant factorisation executor

Point de sauvegarde incluant les fichiers non committés des sessions
précédentes (systemd, docs, agents, GPU manager).

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-04-20 17:03:44 +02:00

34 KiB

Raw Blame History

Dossier de Présentation Technique — Apport en Nature

Logiciel RPA Vision V3

Document destiné au Commissaire aux Apports


Projet	RPA Vision V3 — Plateforme d'automatisation intelligente par vision
Auteur principal	Dom — Architecte / Expert principal
Profil	32 ans d'expérience en informatique de pointe (sécurité, IA, infrastructure, robotique, direction de projet, industrialisation)
Historique du projet	Premier jet il y a ~5 ans (V1). Version actuelle (V3) développée sur ~12 mois (préparation + développement actif)
Date du présent document	25 février 2026
Nature de l'apport	Logiciel, code source, propriété intellectuelle associée

Table des matières

Résumé exécutif
Description fonctionnelle
Architecture technique
Stack technologique
Métriques de développement
Fonctionnalités clés et innovations
État d'avancement
Positionnement concurrentiel
Marché adressable
Inventaire des dépendances open-source et licences
Éléments de valorisation

1. Résumé exécutif

RPA Vision V3 est une plateforme d'automatisation robotisée des processus (RPA) de nouvelle génération. Contrairement aux solutions existantes (UiPath, Automation Anywhere, Blue Prism) qui reposent sur des sélecteurs HTML/UI fragiles, RPA Vision V3 utilise la vision par ordinateur et l'intelligence artificielle multimodale pour comprendre sémantiquement les interfaces utilisateur.

Cette approche résout un problème fondamental du marché RPA : 40 % des robots échouent lorsque les interfaces changent, et 30 % du marché entreprise (environnements Citrix/VDI, mainframes, systèmes air-gapped) reste inaccessible aux solutions conventionnelles.

Le logiciel est le fruit d'un travail intensif de conception, développement et intégration mené par l'auteur principal, combinant expertise en intelligence artificielle, vision par ordinateur et ingénierie logicielle.

2. Description fonctionnelle

Problème résolu

Les solutions RPA traditionnelles présentent trois faiblesses majeures :

Fragilité — Les sélecteurs CSS/XPath cassent dès qu'une interface est mise à jour, entraînant 60 à 70 % des budgets RPA en maintenance
Inaccessibilité — Les environnements Citrix/VDI, mainframes legacy et systèmes air-gapped (défense, santé) restent hors de portée
Rigidité — Aucune capacité d'adaptation autonome aux changements d'interface

Solution apportée

RPA Vision V3 automatise les processus métier en :

Voyant l'écran comme un humain (aucun sélecteur, aucune coordonnée fixe)
Comprenant sémantiquement les éléments d'interface (bouton, champ de texte, menu, etc.)
S'auto-réparant lorsqu'une interface change (4 stratégies de récupération)
Apprenant continuellement des exécutions passées pour améliorer sa fiabilité
Fonctionnant en local (aucune donnée envoyée dans le cloud — conformité RGPD/défense)

Composants fonctionnels

Composant	Rôle
Visual Workflow Builder (VWB)	Interface web de conception visuelle de workflows (drag & drop)
Moteur d'exécution	Exécute les workflows avec gestion d'erreurs et auto-réparation
Agent de capture	Capture cross-plateforme des événements et screenshots
Moteur de détection UI	Détection hybride des éléments d'interface (IA + vision classique)
Système d'embeddings	Empreintes multimodales des états d'écran (FAISS, CLIP)
Système d'apprentissage	Apprentissage progressif et détection de dérive
Dashboard de monitoring	Tableau de bord temps réel des exécutions et analytics
Catalogue d'actions	24+ actions prêtes à l'emploi (clic, saisie, navigation, OCR, IA, etc.)

3. Architecture technique

Architecture en 5 couches

Couche 0 : RawSession          — Capture brute (événements + screenshots)
    ↓
Couche 1 : ScreenState         — Analyse multi-modale (4 niveaux d'abstraction)
    ↓
Couche 2 : UIElement Detection  — Détection sémantique des éléments UI
    ↓
Couche 3 : State Embedding      — Fusion multimodale (empreinte digitale d'écran)
    ↓
Couche 4 : Workflow Graph       — Graphe de nœuds + apprentissage

Structure du projet

rpa_vision_v3/
├── core/                           # Moteur IA (192 fichiers Python)
│   ├── analytics/                  # Collecte et reporting d'analytics
│   ├── capture/                    # Capture d'écran et d'événements
│   ├── detection/                  # Détection UI hybride (OWL-v2 + OpenCV + VLM)
│   ├── embedding/                  # Embeddings CLIP, FAISS, fusion multimodale
│   ├── execution/                  # Exécution des actions et robustesse
│   ├── healing/                    # Auto-réparation (4 stratégies)
│   ├── learning/                   # Apprentissage continu
│   ├── matching/                   # Matching hiérarchique
│   ├── monitoring/                 # Métriques et ordonnancement
│   ├── security/                   # Audit, tokens, validation
│   ├── system/                     # Circuit breaker, auto-heal manager
│   └── training/                   # Entraînement offline
│
├── visual_workflow_builder/        # Application web full-stack
│   ├── frontend_v4/               # React 18 + TypeScript + Vite
│   └── backend/                   # Flask + SocketIO + SQLAlchemy
│       ├── actions/               # Catalogue de 24+ actions
│       ├── api/                   # Endpoints REST et WebSocket
│       ├── contracts/             # Contrats d'interface
│       └── services/              # Services métier (OCR, détection, etc.)
│
├── agent_v0/                      # Agent de capture cross-plateforme
├── server/                        # API de traitement (FastAPI)
├── web_dashboard/                 # Dashboard de monitoring
├── gui/                           # Interface desktop (PyQt5)
├── models/                        # Modèles IA pré-entraînés
└── tests/                         # Suite de tests

4. Stack technologique

Intelligence artificielle et Machine Learning

Technologie	Rôle	Licence
PyTorch 2.x	Framework de deep learning	BSD-3-Clause
OpenCLIP (ViT-B-32)	Embeddings vision-langage (512 dimensions)	MIT
FAISS	Recherche vectorielle (1M+ embeddings, <100ms)	MIT / BSD-3-Clause
Qwen3-VL 8B (via Ollama)	Modèle de vision-langage local	Apache-2.0
OWL-v2	Détection d'objets zero-shot	Apache-2.0
HuggingFace Transformers	Pipeline de modèles IA	Apache-2.0
docTR (Mindee)	OCR (reconnaissance de caractères)	Apache-2.0

Vision par ordinateur

Technologie	Rôle	Licence
OpenCV 4.x	Traitement d'image	Apache-2.0
Pillow	Manipulation d'images	MIT-CMU
MSS	Capture d'écran rapide	MIT

Backend

Technologie	Rôle	Licence
Python 3.12	Langage principal	PSF
Flask 3.0	Framework web (VWB)	BSD
FastAPI	API de traitement (serveur)	MIT
Flask-SocketIO	Communication temps réel	MIT
SQLAlchemy 2.0	ORM base de données	MIT
Redis	Cache et files d'attente	MIT
Pydantic	Validation de données	MIT

Frontend

Technologie	Rôle	Licence
React 18	Framework UI	MIT
TypeScript 5.x	Typage statique	Apache-2.0
Vite 5	Build tool	MIT
@xyflow/react 12	Graphes visuels de workflows	MIT

Sécurité et infrastructure

Technologie	Rôle	Licence
AES-256-GCM	Chiffrement des sessions	(standard cryptographique)
Authentification par tokens	Contrôle d'accès	Développement interne
Audit JSONL	Journalisation sécurisée	Développement interne

5. Métriques de développement

Volume de code source (hors dépendances, hors tests)

Composant	Fichiers	Lignes de code	Langage
Core (moteur IA)	192	~63 800	Python
VWB Backend	115	~42 100	Python
VWB Frontend	24	~6 260	TypeScript/React
Server API	8	~2 900	Python
Agent V0	25	~7 700	Python
Tests	177	~66 900	Python
Total	~541	~189 660

Historique de développement

Le logiciel RPA Vision V3 est le résultat de trois itérations majeures sur une période de 5 ans :

Version	Période	Rôle
V1 (premier jet)	~2021	Preuve de concept — exploration de l'approche vision pour le RPA
V2 (évolution)	2022-2024	Prototypage avancé — validation des choix architecturaux
V3 (version actuelle)	mars 2025 — février 2026	Développement complet — architecture 5 couches, production-ready

Dépôt git V3 (code source livré) :

Métrique	Valeur
Nombre de commits	52
Premier commit V3	7 janvier 2026
Dernier commit	18 février 2026
Contributeur principal	Dom
Insertions totales (git)	~479 000 lignes

Note

: Le dépôt git ne reflète que la phase finale de codage de la V3. Le travail de conception, de R&D et les itérations V1/V2 qui ont fondé l'architecture ne figurent pas dans l'historique de commits mais constituent une part essentielle de la valeur intellectuelle du projet.

Effort réel de développement

Phase	Durée	Intensité	Heures estimées
R&D initiale / V1 et V2 (~5 ans)	~3 ans cumulés	Variable	Non quantifié — valeur de savoir-faire accumulé
Travail préparatoire V3 (conception, veille, architecture)	~4 mois	~6 h/jour	~530 h
Développement actif V3	~8 mois	~10-12 h/jour	~1 760 à 2 100 h
Total effort V3	~12 mois		~2 300 à 2 600 h

Profil de l'auteur

58 ans, 32 ans d'expérience en informatique de pointe
Spécialisations : sécurité, intelligence artificielle (tous niveaux), infrastructure, robotique
Capacité démontrée à créer des systèmes from scratch, du POC au MVP puis à l'industrialisation
Direction d'entreprise, direction de projet, développement
Créateur d'un framework de gestion de projets faisant appel aux nouvelles technologies
Profil équivalent marché : Architecte / Expert principal IA — TJM de référence : 1 200 €/jour

6. Fonctionnalités clés et innovations

6.1 Fusion multimodale d'états d'écran

Chaque état d'écran est résumé en une empreinte vectorielle combinant 4 modalités :

50 % Image (screenshot complet via CLIP)
30 % Texte (texte détecté)
10 % Titre (fenêtre active)
10 % UI (éléments détectés)

Performance : 0,02 ms par embedding (contrainte : <100 ms) — 500x plus rapide que le standard.

6.2 Auto-réparation en 4 stratégies

Lorsqu'un élément d'interface n'est plus trouvé, le système applique en cascade :

Variantes sémantiques — Essai de variations visuelles/textuelles
Fallback spatial — Recherche dans le voisinage
Adaptation temporelle — Ajustement des temps d'attente
Transformation de format — Transformation des données d'entrée

Taux de récupération : >95 % des erreurs transitoires, en <30 secondes.

6.3 Apprentissage progressif

OBSERVATION (5+ exécutions)
    ↓
COACHING (10+ assistances, >90 % de succès)
    ↓
AUTO_CANDIDATE (20+ exécutions, >95 % de succès)
    ↓
AUTO_CONFIRMED (validation utilisateur)

Le système détecte automatiquement les dérives d'interface et crée des variantes.

6.4 Détection UI hybride

Combine trois approches complémentaires :

OWL-v2 : Détection zero-shot (aucun entraînement nécessaire)
OpenCV : Techniques de vision classique
VLM (Qwen3-VL) : Compréhension sémantique via modèle de vision-langage

Détecte 10+ types d'éléments UI avec rôles sémantiques (primary_action, form_input, etc.).

6.5 Circuit breaker et résilience

Système de disjoncteur à 5 états (RUNNING, DEGRADED, QUARANTINED, PAUSED, ROLLBACK) inspiré des patterns de production enterprise, avec journalisation d'audit complète.

6.6 Exécution 100 % locale

Aucune dépendance cloud. Tous les modèles IA tournent en local (GPU), garantissant la conformité RGPD et l'utilisation en environnements classifiés/air-gapped.

7. État d'avancement

Phases complétées (10/13 — 77 %)

Phase	Description	Statut
1-2	Fondations + Embeddings FAISS	Terminé
4-6	Détection UI + Graphes Workflow + Exécution	Terminé
7-8	Système d'apprentissage + Entraînement	Terminé
10-12	Gestion GPU + Performance + Monitoring	Terminé

Phases restantes (3/13 — 23 %)

Phase	Description	Statut
3	Checkpoint final (tests de stockage)	En cours
9	Visual Workflow Builder (90 % → 100 %)	En cours
13	Tests end-to-end + Documentation finale	À faire

Composants prêts pour la production

Agent de capture cross-plateforme avec chiffrement AES-256
Pipeline de traitement serveur + dashboard web
Système d'analytics et monitoring temps réel
Auto-réparation et adaptation automatique

8. Positionnement concurrentiel

Comparaison avec les solutions existantes

Critère	UiPath / AA / BluePrism	RPA Vision V3
Méthode de détection	Sélecteurs CSS/XPath	Vision par IA
Robustesse aux changements UI	Faible (cassure fréquente)	Forte (auto-réparation)
Environnements Citrix/VDI	Support limité/payant	Natif
Mainframes / Legacy	Non supporté	Supporté
Systèmes air-gapped	Non	Oui (100 % local)
Apprentissage autonome	Non	Oui (4 niveaux)
Coût de maintenance	60-70 % du budget	Réduit par auto-réparation
Cloud requis	Souvent	Jamais

Avance technologique estimée

2 à 3 ans d'avance sur l'approche vision-native par rapport aux acteurs traditionnels
Architecture conçue dès le départ pour la vision (pas un ajout a posteriori)
Score de moat technique : 85/100 (analyse détaillée disponible)

9. Marché adressable

Segments cibles (sous-servis par les solutions existantes)

Segment	Taille estimée	Problème
Citrix / VDI	3,9 Mds $	Interfaces sans DOM accessible
Legacy / Mainframe	2,6 Mds $	Aucun sélecteur disponible
Défense / Air-gapped	1,3 Mds $	Exigence 100 % local, pas de cloud
Santé (RGPD)	1,8 Mds $	Données sensibles, conformité stricte
Total adressable	~9,6 Mds $

Marché RPA global

2024 : 13 milliards — **2030** : 30 milliards (CAGR 15 %)
La transition vers l'IA/vision est un mouvement de fond du secteur

10. Inventaire des dépendances open-source et licences

Le logiciel RPA Vision V3 est un développement propriétaire original qui s'appuie sur des bibliothèques open-source. La propriété intellectuelle réside dans :

L'architecture 5 couches et sa conception
Les algorithmes de fusion multimodale
Le système d'auto-réparation en 4 stratégies
Le système d'apprentissage progressif
Le catalogue d'actions et l'intégration complète
Le Visual Workflow Builder

10.1 Dépendances Python directes (requirements.txt)

Package	Version	Licence	Usage
numpy	2.2.x	BSD	Calcul numérique
torch	2.9+	BSD-3-Clause	Deep learning
torchvision	0.24+	BSD	Utilitaires vision
transformers	4.57+	Apache-2.0	Modèles HuggingFace
open_clip_torch	3.2.x	MIT	Embeddings CLIP
faiss-cpu	1.13.x	MIT / BSD-3-Clause	Recherche vectorielle
Pillow	12.x	MIT-CMU	Manipulation d'images
PyQt5	5.15.x	GPL v3	Interface desktop (GUI)
requests	2.32.x	Apache-2.0	Requêtes HTTP
scikit-learn	1.7.x	BSD-3-Clause	Machine learning classique
opencv-python	4.12.x	Apache-2.0	Vision par ordinateur
mss	10.1.x	MIT	Capture d'écran
python-doctr	1.0.x	Apache-2.0	OCR (reconnaissance de texte)
pytest	9.x	MIT	Tests unitaires
hypothesis	6.x	MPL-2.0	Tests property-based

10.2 Dépendances VWB Backend

Package	Version	Licence	Usage
Flask	3.0.x	BSD	Framework web
Flask-SocketIO	5.3.x	MIT	WebSocket temps réel
Flask-CORS	4.0.x	MIT	Cross-origin
SQLAlchemy	2.0.x	MIT	ORM base de données
Flask-SQLAlchemy	3.1.x	BSD-3-Clause	Intégration Flask/SQLAlchemy
marshmallow	3.20.x	MIT	Sérialisation
redis	5.0.x	MIT	Cache
pydantic	2.5.x	MIT	Validation de données
jsonschema	4.20.x	MIT	Validation JSON
python-dotenv	1.0.x	BSD-3-Clause	Variables d'environnement
black	23.x	MIT	Formatage de code
flake8	6.x	MIT	Linting
mypy	1.7.x	MIT	Vérification de types

10.3 Dépendances Server (FastAPI)

Package	Version	Licence	Usage
fastapi	0.115+	MIT	API REST
uvicorn	0.30+	BSD-3-Clause	Serveur ASGI
python-multipart	0.0.6+	Apache-2.0	Upload de fichiers
cryptography	41+	Apache-2.0 / BSD-3-Clause	Chiffrement AES-256

10.4 Dépendances JavaScript/Frontend (package.json)

Package	Version	Licence	Usage
react	18.3.x	MIT	Framework UI
react-dom	18.3.x	MIT	Rendu DOM
@xyflow/react	12.10.x	MIT	Éditeur visuel de graphes
typescript	5.x	Apache-2.0	Typage statique
vite	5.x	MIT	Build tool
@vitejs/plugin-react	4.x	MIT	Plugin React pour Vite
@mui/material	7.x	MIT	Composants UI Material Design
@reduxjs/toolkit	2.x	MIT	Gestion d'état
axios	1.x	MIT	Client HTTP
socket.io-client	4.x	MIT	WebSocket client

10.5 Dépendances transitives notables

Package	Licence	Catégorie
huggingface-hub	Apache-2.0	IA / téléchargement de modèles
safetensors	Apache-2.0	Sérialisation de modèles
tokenizers	Apache-2.0	Tokenisation NLP
timm	Apache-2.0	Modèles de vision
scipy	BSD	Calcul scientifique
networkx	BSD	Manipulation de graphes
tqdm	MIT / MPL-2.0	Barres de progression
protobuf	BSD-3-Clause	Sérialisation de données
PyYAML	MIT	Parsing YAML
certifi	MPL-2.0	Certificats SSL

10.6 Bibliothèques NVIDIA CUDA (15 packages)

Package	Licence
nvidia-cublas-cu12, nvidia-cuda-cupti-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-runtime-cu12, nvidia-cudnn-cu12, nvidia-cufft-cu12, nvidia-cufile-cu12, nvidia-curand-cu12, nvidia-cusolver-cu12, nvidia-cusparse-cu12, nvidia-cusparselt-cu12, nvidia-nccl-cu12, nvidia-nvjitlink-cu12, nvidia-nvshmem-cu12, nvidia-nvtx-cu12	NVIDIA Proprietary (usage gratuit, redistribution encadrée)

10.7 Synthèse des licences

Type de licence	Nombre de packages	Compatibilité commerciale
MIT	~40	Permissive — usage commercial libre
Apache-2.0	~18	Permissive — usage commercial libre
BSD / BSD-3-Clause	~22	Permissive — usage commercial libre
MPL-2.0	2	Permissive (fichier par fichier)
GPL v3	1 (PyQt5)	Copyleft — voir note ci-dessous
LGPL v3	1 (PyQt5-Qt5)	Copyleft faible
NVIDIA Proprietary	15	Gratuit, redistribution encadrée

10.8 Notes de conformité

PyQt5 (GPL v3) — Utilisé uniquement pour l'interface desktop optionnelle (gui/, 3 fichiers). L'application principale (Visual Workflow Builder) utilise React et n'est pas concernée. Option : migration vers PySide6 (LGPL) ou licence commerciale Qt si distribution du composant GUI.
NVIDIA CUDA — Les bibliothèques CUDA sont propriétaires mais gratuites. Leur usage est conforme aux conditions de la licence NVIDIA pour le développement et le déploiement.
Majorité permissive — Plus de 80 % des dépendances utilisent des licences permissives (MIT, Apache-2.0, BSD), pleinement compatibles avec un usage commercial et une distribution propriétaire.
Code propriétaire — L'intégralité du code source développé spécifiquement pour RPA Vision V3 (architecture, algorithmes, intégrations) est propriétaire et constitue l'essentiel de la valeur de l'apport.

11. Éléments de valorisation

11.1 Coût de développement réel (méthode des coûts historiques)

Investissement effectivement consenti par l'auteur pour la version 3 :

Poste	Calcul	Montant
Travail préparatoire (conception, veille, architecture)	~530 h × 150 €/h (TJM 1 200 € ÷ 8h)	79 500 €
Développement actif V3	~2 100 h × 150 €/h	315 000 €
Sous-total main-d'œuvre V3	~2 630 h	394 500 €
Matériel — station de travail (AMD Ryzen 9, 128 Go RAM, RTX 5070)		3 000 €
Matériel — Jetson Nano (tests embarqués)		400 €
Coûts IA (API, modèles, inférence)		200 €
Total coût historique V3		~398 100 €

Note

: Ce calcul ne valorise pas les ~3 ans de R&D cumulés sur les versions 1 et 2, qui ont directement alimenté la conception de la V3 (choix d'architecture, sélection des modèles IA, retours d'expérience). Ce savoir-faire accumulé est inclus dans la valeur de l'apport mais non chiffré séparément.

11.2 Coût de reproduction par un tiers (méthode recommandée)

Le coût de reproduction estime l'investissement qu'une entreprise tierce devrait consentir pour développer un logiciel fonctionnellement équivalent en partant de zéro, sans bénéficier des 5 ans d'itérations V1/V2.

Scénario A — Profil unique équivalent (improbable)

Poste	Calcul	Montant
Architecte IA senior multi-compétences	2 630 h × 150 €/h	394 500 €

Ce scénario suppose l'existence d'un profil aussi polyvalent (IA + full-stack + sécurité + infra + vision). Ce type de profil est extrêmement rare sur le marché.

Scénario B — Équipe spécialisée (réaliste)

Une entreprise devrait constituer une équipe de 3-4 personnes sur 12 à 18 mois :

Poste	Durée	TJM	Montant
Lead architect / Chef de projet IA	12 mois × 22 j	1 200 €/j	316 800 €
Ingénieur ML / Vision par ordinateur	10 mois × 22 j	900 €/j	198 000 €
Développeur full-stack senior (React + Python)	10 mois × 22 j	700 €/j	154 000 €
DevOps / Infra GPU (temps partiel)	4 mois × 22 j	650 €/j	57 200 €
Sous-total main-d'œuvre			726 000 €
Matériel et infrastructure (GPU, serveurs de dev)			5 000 €
Coûts IA (API, modèles, calcul)			2 000 €
Marge d'incertitude technique (+15 %)			109 950 €
Total coût de reproduction			~843 000 €

Justification de la marge : Un tiers ne bénéficierait pas des retours d'expérience des V1/V2 et devrait absorber des cycles de recherche supplémentaires (choix de modèles, benchmarks, impasses techniques).

Synthèse des valorisations

Méthode	Montant	Commentaire
Coût historique (V3 seule)	~398 000 €	Plancher — ne valorise pas la R&D V1/V2
Reproduction par un tiers (équipe)	~843 000 €	Estimation réaliste — inclut marge d'incertitude
Fourchette de valorisation recommandée	400 000 € — 850 000 €	Selon la méthode retenue par le commissaire

11.3 Actifs incorporels composant l'apport

Actif	Description	Quantification
Code source propriétaire	Moteur IA, VWB, Agent, Server, Dashboard	~190 000 lignes (Python, TypeScript)
Architecture logicielle	Conception originale 5 couches, documentation	14 modules architecturaux
Algorithmes propriétaires	Fusion multimodale, auto-réparation 4 stratégies, apprentissage progressif 4 niveaux	Développements originaux
Catalogue d'actions	Actions prêtes à l'emploi pour l'automatisation	24+ actions
Suite de tests	Tests unitaires, intégration, property-based	~67 000 lignes
Savoir-faire accumulé	5 ans d'itérations (V1 → V3), intégration de modèles IA en pipeline local	Non quantifiable — valeur intrinsèque
Documentation technique	Architecture, API, guides, spécifications	Corpus documentaire complet

11.3 Comparables marché

Solution	Valorisation	CA / ARR	Source
UiPath (NYSE: PATH)	~8,8 Mds $ (capitalisation déc. 2025)	CA : 1,43 Md `/ ARR : 1,67 Md` (FY2025)	UiPath IR — FY2025 Results
Automation Anywhere	6,8 Mds $ (Series D, oct. 2025)	Non divulgué (privé)	Tracxn — AA Funding
SS&C Blue Prism	1,6 Md $ (acquisition par SS&C, 2022)	~211 M$ (post-acquisition)	SS&C Blue Prism Acquisition
Sema4.ai (ex-Robocorp)	30,5 M$ levés (2024)	Early stage	Sema4.ai — PR Newswire

Contexte : UiPath, Automation Anywhere et SS&C Blue Prism sont identifiés comme « Leaders » dans le Gartner Magic Quadrant for RPA 2025 (publié juin 2025, 7e année consécutive pour les trois). RPA Vision V3 se positionne dans le segment des solutions IA-natives pour RPA, avec une approche différenciante (vision pure, 100 % local) ciblant les segments inaccessibles aux leaders actuels.

12. Références et sources

12.1 Marché RPA — Taille et prévisions

Source	Donnée	Lien
Grand View Research	Marché RPA mondial : 4,68 Mds `(2025) → 35,84 Mds` (2033), CAGR 29,0 %	Grand View Research — RPA Market
Precedence Research	Marché RPA : 28,31 Mds `(2025) → 247,34 Mds` (2035), CAGR 24,2 %	Precedence Research — RPA Market
Gartner	Marché RPA : 3,79 Mds `(2024) → 30,85 Mds` (2030), CAGR 43,9 %	Gartner — Market Share Analysis RPA 2024
Statista	Prévision marché RPA mondial jusqu'en 2030	Statista — RPA Market Size

Note

: Les écarts entre sources reflètent des périmètres de définition différents (RPA strict vs. hyperautomation). Le consensus est un CAGR de 24 à 44 % selon le périmètre.

12.2 Produits concurrents — Données financières

Acteur	Donnée	Source
UiPath — CA FY2025 : 1,43 Md `, croissance +9 %, ARR 1,67 Md` , 2 292 clients >100k$ ARR	UiPath — Q4 & FY2025 Results
UiPath — Capitalisation boursière ~8,8 Mds $ (déc. 2025)	MacroTrends — UiPath Market Cap
Automation Anywhere — Série D : 290 M$ levés, valorisation 6,8 Mds `(oct. 2025), total levé : 840 M`	Tracxn — AA Funding
SS&C Blue Prism — Acquis par SS&C Technologies pour 1,6 Md $ (mars 2022)	SS&C — Blue Prism Acquisition
Sema4.ai (acquéreur de Robocorp) — 30,5 M$ levés, Robocorp acquis janv. 2024	PR Newswire — Sema4.ai

12.3 Analystes et classements sectoriels

Source	Donnée	Lien
Gartner Magic Quadrant for RPA 2025	Leaders : UiPath, Automation Anywhere, SS&C Blue Prism (7e année consécutive). 13 éditeurs évalués.	Gartner — MQ RPA 2025
UiPath — Communiqué leader MQ 2025	Reconnu leader pour la 7e année, meilleur score « Ability to Execute »	UiPath — MQ 2025 Press Release

12.4 Problématique du marché — Fragilité et échecs RPA

Source	Donnée	Lien
Ernst & Young	30 à 50 % des projets RPA échouent initialement	Flobotics — RPA Statistics
Blueprint Software	Le coût de licence ne représente que 25-30 % du coût total RPA ; la maintenance et le support représentent 15-20 % de l'investissement initial par an	Blueprint — RPA Cost
Blueprint Software	Les bots cassent régulièrement lors de changements d'interface (break-fix cycles) ; la maintenance est le premier poste de coût récurrent	Blueprint — Reduce RPA Maintenance
Worksoft	La fragilité des bots face aux changements UI est le principal défi technique du RPA (« bot fragility »)	Worksoft — Solving Bot Fragility
Deloitte	Enquête mondiale sur l'adoption RPA : 62 % citent l'intégration comme barrière principale, 55 % le manque de compétences	Deloitte — Global RPA Survey

12.5 Problématique Citrix/VDI — Marché sous-servi

Source	Donnée	Lien
PwC India	Livre blanc : « Robotic Process Automation in a Virtual Environment » — les environnements VDI ne fournissent aucun objet DOM exploitable, l'automatisation repose uniquement sur la reconnaissance d'image	PwC — RPA in Virtual Environment (PDF)
Accelirate	« Challenges of RPA in Citrix Environment » — absence totale d'Object IDs, le bot ne voit qu'une image pixel	Accelirate — RPA & Citrix
Ultima (IA Connect)	Solution spécialisée RPA pour Citrix/VDI — confirme le besoin non couvert par les plateformes standard	Ultima — IA Connect for Citrix
Leapwork	« Overcoming Common Citrix Automation Challenges » — les outils RPA classiques échouent en environnement Citrix	Leapwork — Citrix Challenges

12.6 Technologies IA utilisées — Publications et documentation

Technologie	Référence
CLIP (OpenAI, 2021)	Radford et al., « Learning Transferable Visual Models From Natural Language Supervision » — arXiv:2103.00020
FAISS (Meta AI)	Johnson et al., « Billion-scale similarity search with GPUs » — arXiv:1702.08734
OWL-v2 (Google, 2023)	Minderer et al., « Scaling Open-Vocabulary Object Detection » — arXiv:2306.09683
docTR (Mindee)	OCR open-source — GitHub: mindee/doctr
Qwen2.5-VL (Alibaba)	Modèle vision-langage — HuggingFace: Qwen
PyTorch (Meta AI)	Framework de deep learning — pytorch.org
OpenCV	Bibliothèque de vision par ordinateur — opencv.org

Annexes

A. Liste des modules du moteur Core (192 fichiers)

Les modules couvrent : analytics, capture, detection, embedding, execution, graph, healing, learning, matching, models, monitoring, security, system, training.

B. Catalogue des 24 actions VWB

Vision UI (14) : click_anchor, type_text, screenshot_evidence, extract_text, hover, drag_drop, select_option, scroll, wait_element, verify_element, double_click, right_click, keyboard_shortcut, focus_element

Navigation (2) : navigate_to_url, browser_back

Data (2) : download_to_folder, extraire_tableau

Database (3) : save_data, load_data, db_manager

Validation (2) : verify_element_exists, verify_text_content

Intelligence (1) : analyze_with_ai

C. Références documentaires internes

ARCHITECTURE_VISION_COMPLETE.md — Architecture complète 5 couches
PITCH_INVESTISSEURS_RPA_VISION_V3.md — Pitch investisseurs
ANALYSE_MOAT_RPA_VISION_V3.md — Analyse concurrentielle détaillée
QUICK_START.md — Guide de démarrage rapide

Document généré le 25 février 2026 — RPA Vision V3

34 KiB Raw Blame History Unescape Escape

Dossier de Présentation Technique — Apport en Nature

Logiciel RPA Vision V3

Table des matières

1. Résumé exécutif

2. Description fonctionnelle

Problème résolu

Solution apportée

Composants fonctionnels

3. Architecture technique

Architecture en 5 couches

Structure du projet

4. Stack technologique

Intelligence artificielle et Machine Learning

Vision par ordinateur

Backend

Frontend

Sécurité et infrastructure

5. Métriques de développement

Volume de code source (hors dépendances, hors tests)

Historique de développement

Effort réel de développement

Profil de l'auteur

6. Fonctionnalités clés et innovations

6.1 Fusion multimodale d'états d'écran

6.2 Auto-réparation en 4 stratégies

6.3 Apprentissage progressif

6.4 Détection UI hybride

6.5 Circuit breaker et résilience

6.6 Exécution 100 % locale

7. État d'avancement

Phases complétées (10/13 — 77 %)

Phases restantes (3/13 — 23 %)

Composants prêts pour la production

8. Positionnement concurrentiel

Comparaison avec les solutions existantes

Avance technologique estimée

9. Marché adressable

Segments cibles (sous-servis par les solutions existantes)

Marché RPA global

10. Inventaire des dépendances open-source et licences

10.1 Dépendances Python directes (requirements.txt)

10.2 Dépendances VWB Backend

10.3 Dépendances Server (FastAPI)

10.4 Dépendances JavaScript/Frontend (package.json)

10.5 Dépendances transitives notables

10.6 Bibliothèques NVIDIA CUDA (15 packages)

10.7 Synthèse des licences

10.8 Notes de conformité

11. Éléments de valorisation

11.1 Coût de développement réel (méthode des coûts historiques)

11.2 Coût de reproduction par un tiers (méthode recommandée)

Scénario A — Profil unique équivalent (improbable)

Scénario B — Équipe spécialisée (réaliste)

Synthèse des valorisations

11.3 Actifs incorporels composant l'apport

11.3 Comparables marché

12. Références et sources

12.1 Marché RPA — Taille et prévisions

12.2 Produits concurrents — Données financières

12.3 Analystes et classements sectoriels

12.4 Problématique du marché — Fragilité et échecs RPA

12.5 Problématique Citrix/VDI — Marché sous-servi

12.6 Technologies IA utilisées — Publications et documentation

Annexes

A. Liste des modules du moteur Core (192 fichiers)

B. Catalogue des 24 actions VWB

C. Références documentaires internes

34 KiB

Raw Blame History