23 KiB
AXE B4 — Agents GUI autonomes vs replay déclaratif : où placer le curseur pour rpa_vision_v3 ?
Date : 2026-05-23 Auteur : Claude (agent dispatché, recherche prospective) Statut : Note de cadrage. Pas d'action de code. Décision Dom requise. Périmètre : état de l'art 2025-2026 des frameworks computer-use / GUI agents, en miroir de l'architecture actuelle (replay VWB déclaratif + Léa Windows + cascade OCR/template/VLM).
1. TL;DR et recommandation
Insight central : entre mars 2025 et mai 2026, l'autonomie GUI a fait un bond brutal. Les benchmarks de référence (OSWorld-Verified, WindowsAgentArena, ScreenSpot-Pro) sont passés de ~38 % (CUA d'OpenAI, fin 2024) à >80 % (Holo3, Claude Mythos Preview, Agent S3 Behavior Best-of-N) en moins d'un an, dépassant ou rivalisant avec le baseline humain expert (~72 %). Mais ces scores ne disent rien des deux contraintes qui dictent notre choix : latence par step (10-30 s pour les modèles autonomes contre <2 s pour le replay cache-hit) et coût d'inférence cloud (rédhibitoire pour un déploiement healthtech on-premise).
Recommandation 3-6 mois : rester sur l'axe replay déclaratif amélioré, mais ouvrir un bac à sable autonomous "Copilot" sur le pattern Skyvern "Planner-Actor-Validator" (cf. §3) câblé sur le module ORA existant. Concrètement :
- Fermer la dette transport (HTTP → SSE/WebSocket, cf. SYNTHESE_TECHNOS §5.1) avant toute escalade vers l'autonome — sinon on bâtit un agent autonome sur un transport qui perd 9 actions sur 33 s.
- Réactiver le pre-check ORA
if False:ligne 1705 uniquement en mode "Copilot supervisé" (toggle par workflow), pas en autonome silencieux. C'est le pas le plus court vers l'échelle Skyvern niveau Validator-as-component, dont notre dette est explicite (feedback_phash_vs_dialog_in_vm.md). - Adopter explicitement le vocabulaire Shadow → Copilot → Autonomous comme palier produit, avec des métriques de bascule mesurables (success rate ≥ 95 %, intervention rate < 1 step sur 20) issues de la littérature (Turian, SAFe-Copilot, cf. §5).
- Ne PAS courir derrière Holo3 ou Claude Mythos : ces modèles sont SOTA en autonomie mais cloud-only ou >35B params. Notre contrainte VRAM 12 GB et notre exigence on-premise les excluent.
Dépendances directes :
- AXE B2 Validator : prérequis. Sans Validator sémantique solide, le mode Copilot ne peut pas détecter ses échecs → boucle d'erreur sans recovery. Le pattern Reflexion (§4) ne fonctionne que si l'évaluateur est fiable.
- AXE C apprentissage :
TargetMemoryStore(Phase 1 du PLAN_APPRENTISSAGE_LEA) devient le fondement d'une "memory tier" type Letta/MemGPT pour le mode Copilot. Brancher la mémoire AVANT toute escalade autonome.
2. Table comparative — frameworks GUI agents autonomes mai 2026
| Framework / Modèle | OSWorld-Verified | WindowsAgentArena | ScreenSpot-Pro | Latence/step (estim.) | On-prem ? | Licence | Notes |
|---|---|---|---|---|---|---|---|
| Claude Sonnet 5 (Anthropic CU) | 88.3% | n/a (CU générique) | n/a | 10-30 s (LLM agentic) | ❌ cloud only | propriétaire | Dépasse human baseline 72.4 %. API "computer use" tool. Coût ~$5/$25 par MTok |
| Claude Opus 4.7 | 78.0% | n/a | n/a | 10-30 s | ❌ | propriétaire | Successeur 4.6 (72.7 %). |
| Holo3-122B-A10B (H Company) | 78.85% (mars) | n/a | n/a | n/a | ⚠ Apache 2.0 mais 10B actifs / 122B totaux | Apache 2.0 | MoE desktop-spécialisé, sort proprio |
| Holo3-35B-A3B | 82.6% (avril) | n/a | n/a | n/a | ⚠ 3B actifs / 35B totaux | Apache 2.0 | SOTA leaderboard fin avril 2026 |
| GPT-5.4 / OpenAI CUA | 75.0% | n/a | 85.4% (SS-Pro) | 10-20 s | ❌ cloud only | propriétaire | Computer Use tool API tiers 3-5, $3/$12 MTok |
| Agent S3 (Simular) | 66% (100 steps) / 72.6% (Best-of-N) | n/a | n/a | LLM-dépendant | ✅ orchestrateur open | Apache 2.0 | Compose any VLM (Claude/GPT/local) |
| Agent S2 (Simular) | 34.5% (50 steps) | +52.8% vs SOTA prec. | n/a | LLM-dépendant | ✅ | Apache 2.0 | Generalist-Specialist framework |
| UI-TARS-2 (ByteDance) | 47.5% | 50.6% | n/a | end-to-end, ~5 s GPU local | ✅ open weights | Apache 2.0 | 7B params, déployable local. Multi-turn RL |
| Magma (Microsoft) | n/a (focus robotique + GUI) | n/a | n/a | n/a | ✅ open | MIT | Foundation model SoM/ToM, 39M samples. Pas de score OSWorld direct. |
| OS-Atlas-Pro-7B | n/a | n/a | strong (focus grounding) | <2 s GPU local | ✅ open weights | Apache 2.0 | 3 modes : Grounding / Action / Agent |
| Skyvern v2 | n/a (browser-only) | n/a (browser) | n/a | Agent: ~5 s/step ; Script: 10-100× plus rapide | ✅ self-host | AGPL-3.0 | WebVoyager 85.85%. Dual mode agent/script |
| browser-use v2 | n/a (browser) | n/a | n/a | LLM-dépendant | ✅ self-host | MIT | 78k★ GitHub. Reasoning loop pure |
| Cradle (BAAI) | OSWorld testé | n/a | n/a | élevé (6 modules) | ✅ open | Apache 2.0 | 6 modules : Info Gather, Self-Reflection, Task Inference, Skill Curation, Action Planning, Memory |
| AppAgent v2 (Tencent) | mobile-focused | n/a | n/a | n/a | ✅ open | MIT | Combine parser + visuel, flexible action space |
| OS-Genesis (Shanghai AI Lab) | training pipeline | n/a | n/a | n/a | ✅ open (ACL 2025) | Apache 2.0 | Reverse Task Synthesis — pertinent pour Shadow→Copilot, cf. §5 |
Lecture critique :
- Le plafond verre des 85 % sur OSWorld est dépassé par les cloud SOTA (Claude Sonnet 5, Holo3). Mais on parle de tâches simples type ouvrir LibreOffice, modifier un fichier. RIEN sur OSWorld ne ressemble à Easily Assure (UI métier propriétaire dans Edge/Citrix, 22+ steps, T2A médical).
- Les modèles vraiment on-premise <8B (UI-TARS-2, OS-Atlas-Pro) plafonnent à 47-50 % sur OSWorld — performance insuffisante pour de l'autonomie en production healthtech.
- WindowsAgentArena reste le benchmark le plus proche de notre cible (154 tâches Windows multi-app). Score de référence UI-TARS-2 = 50.6 %. À retenir : aucun modèle <100B ne dépasse 60 % sur WAA en mai 2026.
- OSWorld-Human (arxiv 2506.16042) montre que les meilleurs agents prennent 2.7 à 4.3× plus de steps que nécessaire, et que chaque step successif peut prendre 3× plus longtemps que le premier. Le coût latence n'est pas linéaire — il explose en fin de tâche.
3. L'échelle d'abstraction — 4 paliers, où on est, où aller
Reprise du §2.3 d'INSPIRATION_FRAMEWORKS_2026-05-10.md, instrumentée avec les benchmarks 2026.
| Palier | Description | Exemples framework | Robustesse cible | Latence/step | Coût LLM | Notre position |
|---|---|---|---|---|---|---|
| L1 — Replay déclaratif pur | Workflow recorded → rejoué step par step. Aucun raisonnement runtime. | UiPath classique, TagUI, Skyvern Script Mode (cache) | Très haute si UI stable, fragile sur changement | <500 ms (resolve memory hit) à ~2 s (VLM grounding) | ~0 (un appel VLM si miss) | C'est ici qu'on opère. VWB = Planner statique, cascade = Grounding |
| L2 — Replay avec runtime fallback | Replay déclaratif + fallback intelligent quand un step échoue : retry visuel, re-grounding, escalade VLM | Skyvern dual mode (script + agent fallback), Anthropic Computer Use en mode "tool" | Haute, dégradation gracieuse | 2-5 s en moyenne, pic 15 s au fallback | Faible (fallback rare) | Cible 3-6 mois. Le pre-check ORA if False: ligne 1705 est l'opportunité d'amorçage |
| L3 — Autonomous avec checkpoint | Plan dynamique + Validator post-step + ability de re-planifier. Human-on-the-Loop. | Skyvern Agent Mode v2 (Planner-Actor-Validator), Cradle (6 modules), Agent S2/S3, MGA observation-centric | Moyenne, dépend du Validator | 5-15 s/step | Significatif (validator + replan) | Cible 12-18 mois, après AXE B2 Validator solide |
| L4 — Autonomous full | Goal → décomposition + exécution + recovery sans intervention humaine. Human-out-of-the-Loop. | Claude CU, OpenAI CUA, Holo3 end-to-end | Variable — SOTA 88 % sur tâches simples, chute sur UI métier propriétaire | 10-30 s/step | Élevé (cloud) ou très VRAM-gourmand (local 35B+) | Hors périmètre POC santé. Risque juridique RGPD/AI Act, coût cloud, instabilité UI Easily |
Position critique : OpenAdapt, Skyvern, OmniParser et toute la littérature 2026 convergent sur l'idée que L1 → L2 est le saut le plus rentable. L'écart L2 → L3 demande un Validator robuste qui n'existe pas encore chez nous (pHash global insuffisant, cf. bug step 10 du diagnostic 8 mai). L'écart L3 → L4 demande des modèles qu'on n'a pas (cloud only) ou qu'on ne peut pas servir (>35B params).
4. Recovery patterns 2026 — lequel adopter
Quatre familles de patterns dominent en 2026. Classés par robustesse vs effort d'implémentation chez nous.
| Pattern | Principe | Effort impl. | Robustesse | Recommandé pour rpa_vision_v3 ? |
|---|---|---|---|---|
| Retry immédiat | Refaire la même action 1-3 fois avec back-off | Trivial | Faible (n'aide pas si cause structurelle) | ✅ déjà partiellement en place, OK |
| Backtrack agent (BacktrackAgent arxiv 2505.20660) | Verifier + Judger en pipeline. Si fail détecté → rollback step n, retry avec stratégie alternative | Moyen | Haute si Verifier solide | ⚠ utile, mais nécessite Verifier sémantique = AXE B2 |
| Reflexion (NeurIPS 2023, Shinn et al.) | Verbal RL : LLM observe son échec, génère feedback texte stocké en mémoire épisodique, ré-essaie en lisant ce feedback | Élevé (Actor + Evaluator + Self-Reflection) | Très haute en long-horizon, surcoût LLM élevé | ❌ pas avant L3. Surcoût LLM rédhibitoire sur démo répétitive |
| Checkpoint + idempotency (Agent DR 2026) | Checkpoint après chaque step validé, replay depuis le dernier checkpoint sain. Idempotency keys au scope task | Moyen | Très haute pour tâches state-mutating | ✅ Pertinent pour T2A : checkpoint après chaque ord validé, reprise depuis là si crash |
| Pause supervisée (Human-on-the-Loop) | À la moindre détection d'anomalie : pause, demande validation humaine, reprend ou abandonne | Faible | Très haute (humain = oracle) | ✅ Cohérent avec feedback_failure_is_learning.md ("échec clic = pause supervisée, pas stop avec error"). DÉJÀ NOTRE PATTERN |
| Observation-centric (MGA) | Closed loop observe-plan-act-verify ; "occlusion signals + failure clusters" déclenchent replan explicite | Moyen-élevé | Bonne en GUI dynamique | ⚠ pertinent pour Citrix/popups mais nécessite OmniParser-like |
Recommandation : combiner (1) Pause supervisée (déjà notre devise) + (2) Checkpoint+idempotency au niveau workflow VWB (chaque ord T2A = un checkpoint, reprise possible sans réexécution amont). Bonus : ces deux patterns sont vendables au pitch healthtech (sécurité, traçabilité). Reflexion et Backtrack agent restent en R&D pour AXE C.
5. Cycle Shadow → Copilot → Autonomous — état de la littérature
5.1 Qui le formalise ?
Le triptyque est largement adopté en 2026 mais sous des noms variables :
- Microsoft Copilot vs Agent vs Autonomous (Microsoft 2026 Copilot Update, mai 2026) : trois layers explicites — "human-in-the-loop AI", "supervised agent AI", "autonomous agent AI". Microsoft Agent 365 = control plane de cette progression.
- 5 levels of AI autonomy (Turian.ai) : Manual → Assisted → Augmented → Autonomous → Fully Autonomous. Très repris en blogs entreprise.
- HITL / HOTL / Human-out-of-the-loop (autonomous-systems-explained.com) : trois niveaux canoniques en robotique appliqués à l'IA.
- SAFe-Copilot (arxiv 2511.04664) : unified shared autonomy framework — formalise les seuils de bascule.
- AI Autonomy Coefficient α (arxiv 2512.11295) : tente une formalisation quantitative.
Aucun papier ne propose exactement notre triptyque "Shadow → Copilot → Autonomous" mais tous les frameworks 2026 ont 3 paliers équivalents. Notre vocabulaire produit (cf. memory/project_vision.md) est cohérent avec le mainstream.
5.2 Métriques de bascule entre paliers
Synthèse littérature + nos contraintes :
| Bascule | Métrique | Seuil indicatif littérature | Adaptation rpa_vision_v3 |
|---|---|---|---|
| Shadow → Copilot | Précision de la suggestion shadow validée par l'humain | 80-90 % d'acceptation des suggestions | Workflow VWB construit en Shadow accepté ≥ 80 % par le TIM sans modif majeure |
| Copilot → Autonomous | Success rate replay sans intervention | ≥ 95 % sur N runs consécutifs (N≥50) | 50 runs MOREL Catherine successifs sans intervention humaine. Aucun aujourd'hui. |
| Recul Autonomous → Copilot | Intervention rate > seuil | >5 % des steps requièrent humain | Tableau de bord temps réel intervention rate par workflow |
Pratique concrète : OS-Genesis (Shanghai AI Lab) propose un pipeline "Reverse Task Synthesis" qui est conceptuellement Shadow → Copilot inverse : l'agent explore d'abord, dérive ensuite les tâches. Pertinent pour notre vision TargetMemoryStore → généralisation (PLAN_APPRENTISSAGE_LEA Phase 2-3).
6. MCP (Model Context Protocol) — place dans une archi RPA on-premise
Statut MCP : standard ouvert Anthropic 2024, adopté largement en 2026. Architecture client-serveur. Anthropic, OpenAI, Microsoft Agent 365 le supportent.
Pertinence pour rpa_vision_v3 :
- Notre serveur RPA pourrait s'exposer en MCP server — déjà signalé dans INSPIRATION_FRAMEWORKS §5 et CLAUDE.md memory (
reference_mcp_servers.md, on a 13 MCP actifs côté outillage). Cela permettrait à Claude Desktop / Cursor / VS Code d'invoquer nos workflows. - Le serveur on-prem peut exposer en MCP : tables PostgreSQL T2A, dossiers DPI, modèles VLM locaux, dashboards. Pas de cloud requis pour la couche MCP elle-même.
- Risque : si on expose Léa en MCP, on rentre dans l'écosystème "shadow AI agents" pointé par les analyses Microsoft RSAC 2026 (gouvernance, traçabilité). Acceptable seulement avec audit log strict.
- Pas de blocage RGPD spécifique : MCP est juste un protocole, la souveraineté dépend de qui héberge le serveur.
Recommandation MCP : horizon 12+ mois. Pas de valeur immédiate démo. Mais positionnement commercial fort (« notre RPA est un MCP server consommable par n'importe quel agent IA, on-premise et conforme »).
7. Trois scénarios pour rpa_vision_v3
Scénario A — Rester replay déclaratif amélioré (RECOMMANDÉ)
Description : on consolide L1, on ferme les 5 bugs P0, on adopte le vocabulaire Skyvern (Policy/Grounding/Validator) dans la doc et le code, on garde la cascade actuelle.
Effort : 4-6 semaines (clôture dette transport + Validator pHash → sémantique + smart_resize DETTE-014).
Risque : faible. On capitalise sur l'existant.
Bénéfice : démo robuste, vendable POC clinique. Pas de saut techno.
Coût : ne répond pas à l'objectif "Léa apprend / Léa comprend" du memory/project_vision.md.
Scénario B — Hybride L2 + Copilot ORA (BAC À SABLE PARALLÈLE)
Description : Scénario A + on rebranche _verify_pre_click dans ORA (DETTE-008, ligne 1705), uniquement en mode toggle "Copilot supervisé" sur un workflow expérimental. Le pre-check VLM devient le Validator-as-component du pattern Skyvern.
Effort : 8-10 semaines (B2 Validator sémantique + un workflow expérimental en Copilot mode + métriques d'intervention rate).
Risque : moyen. Risque d'éparpillement entre L1 stable et L2 expérimental. Nécessite discipline forte (toggle ENV, pas de mélange runtime).
Bénéfice : on prépare AXE C apprentissage et AXE B2 Validator, on a un POC démontrable de "Léa qui vérifie avant de cliquer". Vendable au pitch healthtech.
Coût : double surface de maintenance.
Scénario C — Sauter vers Autonomous L4 avec Holo3 ou Claude CU
Description : on abandonne progressivement VWB déclaratif, on bascule sur un modèle SOTA (Holo3-35B-A3B en open weights, ou Claude Sonnet 5 cloud) qui décompose le goal "T2A patient X" en steps autonomes.
Effort : 6-12 mois minimum. Recodage majeur. Infrastructure GPU >70 GB VRAM (Holo3) ou cloud bill significatif (Claude).
Risque : très élevé. Easily Assure n'est pas dans le set d'entraînement de ces modèles. Performance OSWorld 80 % ne se transfère pas à UI métier propriétaire. Risque RGPD si Claude (envoi screenshots à Anthropic). Risque hallucination en production médicale.
Bénéfice : narrative "vraiment agentique". Compétitif vs Skyvern/UiPath agentic.
Coût : casse la démo, désaligne avec contrat "100% vision" on-premise, casse l'asset commercial healthtech RGPD.
→ Rejeté pour 2026. Reconsidérer en 2027 si Holo3-7B (hypothétique) sort, ou si on a un client GPU H100 sur site.
8. Recommandation finale
Adopter Scénario A en main track, Scénario B en bac à sable parallèle, avec ces étapes ordonnées :
- S1-S2 : SSE/WebSocket transport (clôt §4 de SYNTHESE_TECHNOS, sans ça rien d'autre n'est crédible).
- S3-S4 : Validator sémantique (AXE B2) — remplacer pHash global par vérification texte attendu présent dans zone visée. C'est aussi la condition d'AXE C.
- S5-S6 : Sur un workflow expérimental, toggle
RPA_ORA_PRECHECK=true→ mode Copilot. Mesurer intervention rate. - S7-S8 : Brancher
TargetMemoryStorePhase 1 (PLAN_APPRENTISSAGE_LEA) — bascule "Léa apprend" mesurable. - Post-S8 : décision Dom autonomous L3 oui/non, sur base métriques réelles.
Dépendances explicites :
- AXE B2 Validator → débloque Copilot et toute progression L2 → L3.
- AXE C apprentissage (TargetMemoryStore) → débloque la mémoire long-terme nécessaire à Copilot+.
- Clôture dette transport → prérequis dur, indépendant des autres axes.
9. Sources (priorité < 6 mois)
Benchmarks et leaderboards
- OSWorld-Verified leaderboard (llm-stats)
- OSWorld 2026 Benchmark Results (Coasty)
- Windows Agent Arena (Microsoft GitHub)
- ScreenSpot-Pro leaderboard
- Computer Use Leaderboard (Awesome Agents)
- OSWorld-Human: Benchmarking Efficiency of CU Agents (arxiv 2506.16042)
Frameworks autonomes
- Anthropic Claude Computer Use 2026 (TokenMix)
- Claude Sonnet 5 benchmarks (DEV.to)
- OpenAI CUA / Operator
- Holo3 35B-A3B leaderboard top (ChatForest)
- Holo Company launches Holo3 (TestingCatalog)
- Magma foundation model (Microsoft Research)
- Magma arxiv 2502.13130
- Agent S2 paper (arxiv 2504.00906)
- Agent S Github (Simular)
- Skyvern dual mode (DEV.to)
- Skyvern Github
- UI-TARS-2 technical report (arxiv 2509.02544)
- UI-TARS Github (ByteDance)
- OS-Atlas-Pro-7B HuggingFace
- OS-Atlas paper (arxiv 2410.23218)
- Cradle BAAI (general computer control)
- Cradle Github
- OS-Genesis Reverse Task Synthesis (arxiv 2412.19723)
- OS-Copilot Github
- AppAgent v2 (arxiv 2408.11824)
Patterns recovery / autonomie
- Reflexion paper (NeurIPS 2023, Shinn et al.)
- BacktrackAgent (arxiv 2505.20660)
- MGA Memory-Driven GUI Agent (arxiv 2510.24168)
- Agentic Workflow Incident Response 2026 (DigitalApplied)
- Agent Disaster Recovery (TianPan)
- Agentic Design Patterns 2026 (SitePoint)
- AI Agent Reflection patterns (Zylos)
Mémoire long-terme
- State of AI Agent Memory 2026 (Mem0)
- Best AI Agent Memory Frameworks 2026 (Atlan)
- Memory in Agents — Short/Long-term with LangGraph (Medium)
MCP
- MCP introduction (Anthropic)
- MCP docs (Anthropic)
- Code execution with MCP (Anthropic engineering)
- MCP overview (Phil Schmid)
Autonomy frameworks (Shadow → Copilot → Autonomous)
- 5 Levels of AI Autonomy (Turian)
- Human-in-the-Loop vs Full Autonomy (Autonomous Systems Explained)
- SAFe-Copilot Unified Shared Autonomy (arxiv 2511.04664)
- AI Autonomy Coefficient α (arxiv 2512.11295)
- Computer Use Agents 2026 Claude vs OpenAI vs Gemini (DigitalApplied)
Healthcare RPA / agents
- Built 11 Autonomous Agents Healthcare RCM (Medium Apr 2026)
- Manus AI Enterprise Healthcare Evaluation Guide 2026 (Ventus)
- Future of RPA Trends 2026 (Blue Prism)
Document à débattre avec Dom. Pas d'action de code engagée. Le scénario retenu doit aussi être croisé avec les conclusions d'AXE B2 (Validator) et d'AXE C (apprentissage) avant arbitrage final.