26 KiB
Axe E — Référentiel benchmarks GUI 2026 & delta frameworks RPA visuels
Date : 2026-05-23
Auteur : Claude (subagent veille) via Dom
Périmètre : veille externe — pas de modif code.
Source de référence à mettre à jour : docs/INSPIRATION_FRAMEWORKS_2026-05-10.md (10 mai 2026) + docs/superpowers/specs/2026-05-05-qw-suite-mai-design.md (5 mai 2026).
Statut : veille brute, à valider avec Dom avant toute action.
1. TL;DR
En 2 semaines (10 → 23 mai 2026), 3 mouvements à retenir :
- OSWorld n'est plus humain-level, il est passé super-humain. Coasty (open source, github
coasty-ai/open-computer-use) annonce 82 % sur OSWorld vs ~72 % humain, devant Claude Sonnet 4.6 à 73 % et Agent-S3 (Simular) à 69,9 %–72,6 % (bBoN). OpenAI Operator stagne à 38 %. La marche entre "agent qui copie l'humain" et "agent qui fait mieux" est franchie côté frontière open source. - WebVoyager est saturé. Om Labs 98,9 %, Alumnium 98,5 %, Magnitude 94 %. Skyvern 2.0 (85,85 %) n'est plus SOTA. Le benchmark ne discrimine plus — Skyvern a anticipé en lançant Web Bench (5 750 tâches × 452 sites, partenariat Halluminate).
- MCP est devenu standard d'agent. 97 M downloads SDK mensuel en mars 2026 (+970× en 18 mois), 78 % des équipes IA enterprise déclarent au moins un agent MCP en prod (avril 2026). Microsoft Agent 365 (GA 1er mai 2026) intègre gouvernance MCP au niveau tenant. Anthropic, OpenAI, Google Gemini et Vercel SDK supportent tous MCP nativement.
Tendances 2026 :
- Mixture-of-Grounding et Best-of-N rollouts (Agent S2/S3 « bBoN ») remplacent le single-pass.
- Continual learning sur GUI (GUI-AiF, AAAI 2026) émerge — replay engine devient training ground.
- Le rythme des sorties papier sur arXiv (AAAI 2026, ICLR 2026) double vs 2025 sur la verticale "GUI agent".
Recommandation immédiate pour rpa_vision_v3 :
- Adopter ScreenSpot-Pro (1 581 instructions, 23 apps, 3 OS, leaderboard maintenu jusqu'à mai 2026) comme bench de grounding interne — c'est le seul qui a des screenshots haute résolution réalistes (notre cas Easily Assure).
- Surveiller Coasty open-computer-use (apparu post-doc inspiration) et Agent-S3 bBoN — les deux poussent un pattern Best-of-N qui résoudrait notre Validator laxiste (cf. §7).
2. Carte référentiel benchmarks GUI 2026
| Benchmark | Mesure | Type tâches | Utilité rpa_vision_v3 |
|---|---|---|---|
| ScreenSpot (V1) | Grounding pur (clic) sur captures recadrées | 1 272 instructions web/desktop/mobile | Faible (résolutions trop basses, "consumer apps") |
| ScreenSpot-V2 | Idem V1, 11,32 % de samples re-annotés | Idem V1 corrigé | Référence académique, pas notre cas réel |
| ScreenSpot-Pro | Grounding haute résolution pro | 1 581 instructions, 23 apps pro, 3 OS, écrans HD | ★★★★★ — notre cas |
| WindowsAgentArena | Agent autonome end-to-end Windows | 154 tâches Windows (Notepad, Paint, navigateurs, etc.) | ★★★★ — OS cible |
| OSWorld | Agent autonome end-to-end multi-OS | 369 tâches (LibreOffice, Chrome, VS Code, file mgmt) | ★★★★ — gold standard "agent" |
| OSWorld-Verified | OSWorld durci anti-gaming (juillet 2025) | Sous-ensemble vérifié humain | ★★★ |
| WebVoyager | Agent web SOTA | 610 tâches sites live, jugement GPT | ★★ — saturé, pas notre cible (browser only) |
| Online-Mind2Web | Agent web réaliste | 300 tâches × 136 sites | ★★ |
| Web Bench (Skyvern + Halluminate) | Agent web large couverture | 5 750 tâches × 452 sites | ★★ |
| AgentBench (THUDM) | LLM-as-agent multi-environnement | 8 envs (OS, SQL, KG, jeux, web, etc.) | ★ — trop générique |
| VisualWebBench | Compréhension/grounding web MLLM | 1,5 k instances × 139 sites | ★ |
| GUI-World (ICLR 2025) | Compréhension vidéo GUI | 6 scénarios × 8 types Q dynamiques | ★ — pas notre angle replay |
| AndroidWorld | Mobile Android agent | 116 tâches × 20 apps Android | ✗ — hors scope healthtech desktop |
| AndroidArena / A3 | Mobile dynamique | Tâches réalistes en ligne | ✗ |
| MobileWorld (ACL 2026) | Mobile + MCP-augmented | Tâches user-interactive | ✗ |
Carte de couverture qui mesure quoi :
- Grounding seul (point/bbox) → ScreenSpot-Pro (★ pour nous), ScreenSpot-V2, VisualWebBench.
- Agent autonome Windows → WindowsAgentArena (★ pour nous).
- Agent autonome multi-OS → OSWorld, OSWorld-Verified (★ pour nous, partiellement).
- Agent web → WebVoyager (saturé), Online-Mind2Web, Web Bench.
- Compréhension vidéo GUI → GUI-World.
- Mobile → AndroidWorld, AndroidArena, MobileWorld (hors scope).
3. Fiches des 5 benchmarks les plus pertinents pour nous
3.1 ScreenSpot-Pro — arxiv:2504.07981
- Composition : 1 581 instructions, 1 instruction par screenshot unique, 23 applications professionnelles, 5 secteurs (CAD, dev, ingénierie, science, design), 3 OS (Windows, macOS, Linux). Annotations expert humain.
- Métriques : taux de clic correct (point dans bbox vérité-terrain), bbox IoU.
- Dataset accessible : github
likaixin2000/ScreenSpot-Pro-GUI-Grounding, leaderboard publicgui-agent.github.io/grounding-leaderboard/(MAJ 14 avril 2026). - SOTA mai 2026 :
- GPT-5.2 (OpenAI) : 86,3 %
- GPT-5.4 (OpenAI) : 85,4 % (référence
benchlm.ai) - Muse Spark : 84,1 %
- Gemini 3 Pro (Google) : 72,7 %
- Qwen3.5 (féb 2026) : 70,3 % overall
- Qwen3.5-35B-A3B : 68,6 %
- Qwen2.5-VL-72B + RegionFocus : 61,6 %
- Baseline historique (papier original) : 18,9 % (modèles non spécialisés).
- Lien : https://arxiv.org/abs/2504.07981
- Pertinence rpa_vision_v3 : c'est le seul bench grounding qui ressemble vraiment à Easily Assure — résolutions ≥ 1920×1080, mix de menus denses, panneaux à droite, tableaux. Notre
MIGRATION_VLM_PLAN_2026-05-09.mdcite ScreenSpot-Pro mais nous n'avons pas de score interne récent à comparer.
3.2 WindowsAgentArena (WAA) — arxiv:2409.08264
- Composition : 154 tâches Windows réelles (Notepad, Paint, File Explorer, Clock, Settings, browsers, documents, vidéo, code).
- Métriques : success rate task-level, parallélisable en Azure (~20 min run complet).
- Dataset accessible : github
microsoft/WindowsAgentArena, paper pagehuggingface.co/papers/2409.08264. - SOTA mai 2026 :
- UI-TARS-2 (ByteDance, sept 2025) : 50,6 %
- Multi-modal Navi (Microsoft, baseline) : 19,5 %
- Humain : 74,5 %
- Lien : https://microsoft.github.io/WindowsAgentArena/
- Pertinence rpa_vision_v3 : ★★★★★ pour positionnement client GHT — Windows = terrain réel des TIM. Le gap humain–machine (74,5 % vs 50,6 % SOTA) est exactement le créneau où on opère (supervision médicale). Bench non saturé.
3.3 OSWorld / OSWorld-Verified
- Composition : 369 tâches sur OS réels (Ubuntu/Windows), apps réelles (LibreOffice, Chrome, VS Code, file mgmt, multi-app workflows). OSWorld-Verified = sous-ensemble durci (juillet 2025) pour empêcher le gaming.
- Métriques : success rate avec vérificateur déterministe par tâche (état final fichier, contenu DOM, etc.).
- Dataset accessible : leaderboard public maintenu.
- SOTA mai 2026 :
- Coasty open-cu : 82 % (super-humain) — open source, gh
coasty-ai/open-computer-use - Claude Opus 4.6 (Anthropic) : 72,7 %
- Claude Sonnet 4.6 : 73 %
- Agent-S3 + bBoN (Simular) : 72,6 % — premier à passer humain
- Agent-S3 vanilla : 69,9 %
- GPT-5.3 Codex : 65 %
- GPT-5.2 Codex : 38 %
- OpenAI Operator (CUA) : 38,1 %
- Agent S2 (avril 2025) : 34,5 %
- UI-TARS-2 (ByteDance) : 47,5 %
- Coasty open-cu : 82 % (super-humain) — open source, gh
- Lien : leaderboard via Coasty et Awesome Agents.
- Pertinence rpa_vision_v3 : reference pour mesurer "où on en est par rapport au monde". Si on touche 30 % sur ces tâches en local-only, on est déjà compétitif.
3.4 WebVoyager — arxiv:2401.13919 + extension Web Bench
- Composition initiale : 643 tâches × 15 sites (huit retirés post-Skyvern car obsolètes). Jugement GPT contre ≤ 15 screenshots/tâche.
- Web Bench (Skyvern × Halluminate, 2026) : 5 750 tâches × 452 sites.
- SOTA mai 2026 (WebVoyager) :
- Om Labs (Claude Code + Opus 4.7 + GPT-5.4 Nano) : 98,9 %
- Alumnium MCP (Claude Code + Selenium) : 98,5 %
- Surfer 2 (H Company) : 97,1 %
- Magnitude : 94 %
- OpenAI CUA / Operator : 87 %
- Skyvern 2.0 : 85,85 % (référence doc 10 mai 2026 — plus SOTA)
- Lien : https://webvoyager.omlabs.xyz/
- Pertinence rpa_vision_v3 : ★★ — pas notre cible (DPI Easily est partiellement web mais via Citrix souvent). À surveiller comme indicateur de saturation des benchs publics.
3.5 Bench candidat desktop Windows-spécifique → Online-Mind2Web + ScreenSpot-Pro suffisent
Aucun bench n'est plus "Windows-desktop natif" que WindowsAgentArena à date. Pour la verticale healthtech, il n'existe pas de bench public — c'est probablement une opportunité (créer EasilyBench-1 interne à partir de nos 11 dossiers GHT serait un asset commercial).
4. Mise à jour frameworks vs doc 10 mai 2026
4.1 OpenAdapt (OpenAdaptAI)
| Aspect | 10 mai 2026 | 23 mai 2026 |
|---|---|---|
| Stars | ~7 k | en croissance |
| Dernier release PyPI | non précisé | 4 mars 2026 (PyPI) |
| Capacités VLM | LLM/LMM/VLM/LAM | + adaptateurs Qwen3-VL et Qwen2.5-VL via HF + PEFT |
| Phase produit | Phase 2 (retrieval-only) validée | Phase 3 (demo-conditioned fine-tuning) en cours |
| Infra | local | + intégration AWS C8i/M8i/R8i nested virt (févr 2026, ~$0,19/h) |
| Sous-projets | mono-repo | openadapt-ml + openadapt-evals splittés |
Delta clé : OpenAdapt a structuré son écosystème en 3 dépôts (core + ML + evals). Le pattern "Evaluation-Driven Feedback" cité dans le doc 10 mai est désormais matérialisé dans openadapt-evals (infrastructure benchmarks). À étudier comme template pour notre TargetMemoryStore → pipeline d'entraînement.
4.2 Skyvern (Skyvern-AI)
| Aspect | 10 mai 2026 | 23 mai 2026 |
|---|---|---|
| WebVoyager | 85,85 % (cité comme SOTA) | plus SOTA — 4 acteurs au-dessus |
| Nouveauté | Planner-Actor-Validator + VWB | Web Bench (5 750 tâches × 452 sites) avec Halluminate, fév 2026 |
| Layout-resistant | non cité | dossier Layout-Resistant Tools (fév 2026) |
Delta clé : Skyvern a réagi à la saturation de WebVoyager en lançant son propre méga-bench. Notre VWB partage le naming Visual Workflow Builder avec eux, pas un problème, convergence indépendante.
4.3 OmniParser (Microsoft)
| Aspect | 10 mai 2026 | 23 mai 2026 |
|---|---|---|
| Version | V2 (févr 2025) | V2.0.1 (12 sept 2025) — patch sécurité CVE-2025-55322 RCE |
| Latence | non précisée | 60 % réduction vs V1, 0,6–0,8 s sur A100/4090 |
| ScreenSpot-Pro | non précisé | 39,6 % sur détection d'interactables |
| V3 | — | non annoncé |
Delta clé : OmniParser V2 reste la référence "screen tokenizer". Pas de V3 en vue. Le patch CVE-2025-55322 est à connaître si on auto-héberge.
4.4 TagUI (AI Singapore)
| Aspect | 10 mai 2026 | 23 mai 2026 |
|---|---|---|
| Statut | actif mais "moins LLM-first" | inchangé. V6 en chantier (Chrome visible par défaut) |
| Roadmap | non précisée | IDE + Orchestrator + Reporting Dashboard prévus |
Delta clé : aucun mouvement majeur. TagUI évolue vers UI/orchestration, pas vers le RPA visuel LLM-first.
4.5 Anthropic Computer Use SDK / Claude
- Claude Opus 4.6 annoncé.
- Claude Sonnet 4.6 : 72,5–73 % OSWorld (qualifié de "barely human-level").
- Claude Opus 4.6 : 72,7 % OSWorld.
- Claude Opus 4.7 présent dans
Om Labs(top WebVoyager 98,9 %). - Postmortem Anthropic mars-avril 2026 : 3 bugs latence/qualité (reasoning effort, caching, verbosity prompt). Résolus le 20 avril.
4.6 OpenAI Operator (CUA)
- OSWorld : 38,1 % — n'a pas bougé. Coasty publie un Review titré "A 38% Score Is Not an AI Agent, It's a Beta Product" (mai 2026).
- WebVoyager : 87 %, devancé.
- Operator standalone sunset → fusionné dans ChatGPT "agent mode" depuis juillet 2025.
- CUA exposé via API (Responses API, tier 3-5 select developers, research preview).
4.7 Simular Agent-S → Agent-S2 → Agent-S3
| Version | Date | OSWorld | Innovation |
|---|---|---|---|
| Agent-S | 2024 | — | architecture computer-use mature |
| Agent-S2 | avril 2025 | 34,5 % (50 step) | Mixture-of-Grounding + Proactive Hierarchical Planning |
| Agent-S3 | déc 2025 / 2026 | 69,9 % (vanilla) → 72,6 % (Best-of-N "bBoN") | suppression hiérarchie, native coding agent Python/Bash, Behavior Best-of-N (sample multiple rollouts, garde le meilleur) |
Delta clé : Agent-S3 est devenu le premier agent à passer humain-level OSWorld (avant Coasty). Le pattern bBoN est probablement le quick-win le plus rentable pour notre Validator (cf. §7).
4.8 Magma (Microsoft Research)
- Foundation model multimodal digital + physique (CVPR 2025, github
microsoft/MagmaMIT licence). - Innovations : Set-of-Mark (SoM) pour grounding action + Trace-of-Mark (ToM) pour planification.
- Magma-8B sur HuggingFace.
- Pas de release majeure en mai 2026, mais le pattern SoM/ToM est repris dans plusieurs papiers AAAI/ICLR.
4.9 Cradle (Microsoft Research)
- Le terme "Cradle" est concurrencé en mai 2026 par Microsoft Agent 365 (GA 1er mai 2026) qui couvre la gouvernance/observabilité d'agents (incluant MCP servers). Pas de release Cradle spécifique.
4.10 OS-Atlas (OS-Copilot)
- Statut : ICLR 2025 accepted, modèles OS-Atlas-Base-4B/7B + OS-Atlas-Pro-7B/4B sur HuggingFace.
- ScreenSpot-V2 : re-annoté par OS-Atlas team (11,32 % de samples corrigés).
- Pas de V2 OS-Atlas annoncée à mai 2026.
4.11 UI-TARS / UI-TARS-2 (ByteDance)
| Version | Date | Notes |
|---|---|---|
| UI-TARS-1.5-7B | mars 2026 (notre repo l'avait, commit 9da589c8c du 25 avril) |
abandonné par nous le 26 avril pour InfiGUI-G1-3B |
| UI-TARS-2 | 4 sept 2025 | All-In-One Agent (GUI + Game + Code + Tool), Apache 2.0 |
| UI-TARS-desktop | mai 2026 | 33 573 stars = plus gros projet open source GUI agent |
Scores UI-TARS-2 :
- Online-Mind2Web : 88,2
- OSWorld : 47,5
- WindowsAgentArena : 50,6
- AndroidWorld : 73,3
Delta clé : UI-TARS-2 est sorti AVANT le doc 10 mai mais n'y est pas mentionné. ByteDance détient désormais le plus grand écosystème GUI agent open source (33 k stars) — à reconsidérer comme alternative à InfiGUI-G1-3B sur notre serveur grounding.
4.12 AGUVIS (Salesforce + HKU)
- Pas de release Salesforce 2026.
- Toujours référencé comme baseline pure vision (89,2 grounding multi-plateforme, 51,9 % step success rate).
- ICML 2025 accepted.
4.13 MCP (Model Context Protocol)
| Métrique | Mars-Avril 2026 |
|---|---|
| Downloads SDK mensuels | 97 millions (+970× en 18 mois) |
| Servers publics | 9 400+ (vs 1 200 Q1 2025), +18 % mom Q1 2026 |
| Adoption enterprise | 78 % équipes IA ont ≥ 1 agent MCP en prod |
| CTOs déclarant MCP "default" | 67 % dans 12 mois |
| Support LLM | Claude (natif), ChatGPT (Apps SDK), Gemini (mars 2026), Cursor, Windsurf, Zed, JetBrains, Vercel AI SDK, OpenAI Agents SDK |
| Roadmap 2026 | audit trails, SSO auth, gateway, config portability |
Delta clé pour rpa_vision_v3 : on est dans la fenêtre où exposer notre engine via MCP serait un asset commercial (Skyvern, OpenAdapt, browser-use l'ont fait). Microsoft Agent 365 prévoit la gouvernance MCP au niveau tenant — vendeur d'argument healthtech (audit, conformité).
5. Nouveaux entrants 2026 — non couverts par les docs internes
5.1 Coasty (gh coasty-ai/open-computer-use)
- 82 % OSWorld — premier au-dessus de Claude Sonnet 4.6 (73 %) et Agent-S3 (72,6 %).
- "Production-ready, remote and local, one API key".
- Open source.
- À étudier ASAP : architecture probablement utile pour pousser notre OSWorld interne.
5.2 Agent-S3 bBoN (Simular)
- Pattern Behavior Best-of-N : exécute N rollouts en parallèle, sélectionne le meilleur via judge.
- 18,9 % et 32,7 % relative improvements vs baseline.
- Lien direct avec notre Validator laxiste (bug step 10 Imagerie dans bandeau Edge) : bBoN éviterait que le mauvais rollout passe le VERIFY.
5.3 InfiGUI-G1 + AEPO (AAAI 2026 Oral)
- Notre serveur grounding actuel (
InfiGUI-G1-3B, commit77faa03ecdu 26 avril) repose dessus. - Adaptive Exploration Policy Optimization : +9 % vs RLVR baseline.
- Acceptance AAAI 2026 Oral confirme robustesse.
5.4 Magnitude / Alumnium / Om Labs
- Magnitude (gh
magnitudedev/webvoyager) : 94 % WebVoyager. - Alumnium : 98,5 % WebVoyager via Claude Code + Selenium + MCP.
- Om Labs (
webvoyager.omlabs.xyz) : 98,9 % WebVoyager (avril 2026). - Pattern commun : couplage browser engine classique (Selenium/Playwright) + agent LLM. Pas notre angle (Citrix interdit DOM), mais à surveiller.
5.5 GUI-Actor (Microsoft)
microsoft/GUI-Actor-7B-Qwen2.5-VLsur HF.- Attention-based action head sans coordonnées (coordinate-free visual grounding).
- 44,6 sur ScreenSpot-Pro avec Qwen2.5-VL backbone.
5.6 Papiers AAAI/ICLR/ICML 2026 à surveiller
- TreeCUA (fév 2026,
arxiv:2602.09662) — tree-structured verifiable evolution. - LiteGUI (
arxiv:2605.07505) — distillation compact GUI via RL. - UltraCUA (
arxiv:2510.17790) — foundation model CUA hybrid action. - Continual GUI Agents (
arxiv:2601.20732) — continual learning sur GUI. - GUI-RCPO (
arxiv:2509.21552) — self-improvement, +5 % ScreenSpot-V2. - MobileWorld (ACL 2026) — mobile + MCP-augmented.
6. Tendances 2026 — patterns émergents
-
Best-of-N rollouts (Agent-S3 bBoN, Om Labs WebVoyager) : un seul agent run ne suffit plus, on parallélise et on garde le meilleur. Implication directe pour rpa_vision_v3 : notre VERIFY post-action devrait être un judge entre plusieurs candidats de grounding, pas un pHash global.
-
Mixture-of-Grounding (Agent-S2, GUI-Actor) : différents modèles de grounding spécialisés pilotés par un routeur adaptatif. C'est exactement la spec F2 déclarée out-of-scope dans
QW_SUITE_MAImais qui devient mainstream. -
Continual learning on-the-fly (GUI-AiF AAAI 2026, OpenAdapt phase 3) : l'agent apprend pendant le replay. Notre
TargetMemoryStoreest conceptuellement aligné mais sans pipeline d'entraînement. -
MCP-first architecture : tous les acteurs majeurs (Anthropic, OpenAI, Google, Skyvern, browser-use, Alumnium) exposent ou consomment MCP. Le standard d'interop est tranché.
-
Synthesis frameworks : on n'oppose plus RPA classique et AI agent. Skyvern (Planner-Actor-Validator), Agent-S3 (manager + native coding), Coasty (production-ready), OpenAdapt 3 dépôts. Le vainqueur est celui qui combine déclaratif + LLM + grounding spécialisé.
-
Saturation des benchs publics et création de méga-benchs privés : WebVoyager saturé → Web Bench (5 750 × 452). OSWorld passé humain → futur OSWorld-2 inévitable.
7. Implications pour rpa_vision_v3
7.1 Frameworks méritant exploration deeper
| Framework | Pourquoi | Effort lecture |
|---|---|---|
| Coasty open-computer-use (82 % OSWorld, OS) | Architecture production-ready, "remote and local" qui matche notre Léa Windows + serveur Linux | 1–2 j |
| Agent-S3 bBoN (72,6 % OSWorld, open) | Best-of-N résout notre Validator laxiste (bug step 10) | 0,5–1 j paper + code |
| OpenAdapt phase 3 (demo-conditioned fine-tuning) | Template pour brancher TargetMemoryStore sur un pipeline d'entraînement |
1 j paper + code |
| UI-TARS-2 + UI-TARS-desktop (33 k stars) | Alternative à InfiGUI-G1-3B sur notre serveur grounding | 1 j eval |
| MCP serveur (Skyvern, browser-use, Anthropic) | Exposer rpa_vision_v3 en MCP = standard interop healthtech | 2–3 j POC |
7.2 Benchmarks à adopter pour mesurer notre progrès
- ScreenSpot-Pro (priorité 1) — refaire un bench grounding sur les 5 modèles déjà testés (qwen2.5vl:7b Ollama, qwen3-vl:8b, InfiGUI-G1-3B, UI-TARS-2, qwen3.5). Permet de positionner notre stack sur un référentiel public.
- Notre
BENCH_GROUNDING_INTERNE_2026-05-08ne contient qu'1 fixture (heartbeat dialog OK/Cancel) — c'est trop pauvre.
- Notre
- WindowsAgentArena (priorité 2) — adapter 5–10 tâches du WAA "browsers/documents" à notre stack pour avoir un repère agent autonome public.
- EasilyBench-1 interne (priorité 3) — créer un bench fermé à partir des 11 dossiers GHT (workflow
Urgence_aiva_demo+ variantes). Asset commercial : "on a notre propre eval validée par médecin DIM".
7.3 Patterns à formaliser dans la doc (gratuit, zéro code)
Le doc 10 mai recommandait déjà Policy / Grounding / Safety Gate / Validator. À ajouter :
- Best-of-N rollouts (bBoN) comme alternative au pHash VERIFY.
- Mixture-of-Grounding comme nom officiel de notre cascade.
- Screen Tokenizer comme nom de la suggestion §4.1 du doc 10 mai (log candidats à chaque
_resolve_target). - MCP-first dans la roadmap interop.
7.4 Mises à jour à porter dans INSPIRATION_FRAMEWORKS_2026-05-10.md
- §3.1 Skyvern : retirer "85,85 % WebVoyager SOTA" — ajouter "85,85 % avant Om Labs/Alumnium/Magnitude/Surfer 2 — Skyvern a lancé Web Bench (5 750 × 452)".
- §4.1 OmniParser : préciser V2.0.1 + patch CVE-2025-55322 + 39,6 % ScreenSpot-Pro + 60 % latence réduite.
- §5 ajouter Coasty, Agent-S3, UI-TARS-2 comme entrants 2026 majeurs.
- §6 ajouter MCP server architecture comme présent, pas long-terme.
- §7 ajouter "Best-of-N" et "Continual learning" comme nouveaux patterns convergents.
8. Sources (avec dates)
Benchmarks
- ScreenSpot-Pro paper — https://arxiv.org/abs/2504.07981 (avril 2025, leaderboard MAJ avril 2026)
- ScreenSpot-Pro leaderboard — https://gui-agent.github.io/grounding-leaderboard/ (MAJ 14 avril 2026)
- ScreenSpot-Pro models avg — https://benchlm.ai/benchmarks/screenSpotPro (mai 2026)
- WindowsAgentArena paper — https://huggingface.co/papers/2409.08264
- WindowsAgentArena GH — https://github.com/microsoft/WindowsAgentArena
- OSWorld leaderboard via Coasty — https://coasty.ai/blog/osworld-benchmark-results-2026-who-actually-wins (mai 2026)
- WebVoyager leaderboard — https://webvoyager.omlabs.xyz/ (avril 2026)
- Online-Mind2Web GH — https://github.com/OSU-NLP-Group/Online-Mind2Web (mars 2025)
- VisualWebBench — https://visualwebbench.github.io/
- AgentBench GH — https://github.com/THUDM/AgentBench
- Holistic Agent Leaderboard — https://hal.cs.princeton.edu/
Frameworks (delta 10 → 23 mai 2026)
- OpenAdapt — https://github.com/OpenAdaptAI/OpenAdapt (PyPI 4 mars 2026)
- OpenAdapt evals — https://github.com/OpenAdaptAI/openadapt-evals
- Skyvern 2.0 launch — https://www.skyvern.com/blog/skyvern-2-0-state-of-the-art-web-navigation-with-85-8-on-webvoyager-eval/
- Skyvern Web Bench — https://www.skyvern.com/blog/web-bench-a-new-way-to-compare-ai-browser-agents/
- OmniParser V2.0.1 release — https://github.com/microsoft/OmniParser/releases (12 sept 2025)
- OmniParser V2 perf — https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
- TagUI — https://github.com/aisingapore/TagUI
- Browser Use changelog — https://browser-use.com/changelog (CLI 2.0, BU 2.0 jan 2026, V3 sessions avril 2026)
- Anthropic postmortem Claude — https://www.anthropic.com/engineering/april-23-postmortem (23 avril 2026)
- Anthropic Opus 4.6 — https://www.anthropic.com/news/claude-opus-4-6
- OpenAI Operator — https://openai.com/index/introducing-operator/
- OpenAI Operator critique — https://coasty.ai/blog/openai-operator-review-2026-20260504 (4 mai 2026)
- Simular Agent-S2 — https://www.simular.ai/articles/agent-s2
- Simular Agent-S3 — https://www.simular.ai/articles/agent-s3
- Simular Agent-S GH — https://github.com/simular-ai/Agent-S
- Microsoft Magma — https://microsoft.github.io/Magma/
- Microsoft Magma GH — https://github.com/microsoft/Magma
- Microsoft Agent 365 GA — https://www.microsoft.com/en-us/security/blog/2026/05/01/microsoft-agent-365-now-generally-available-expands-capabilities-and-integrations/ (1er mai 2026)
- OS-Atlas — https://github.com/OS-Copilot/OS-Atlas
- UI-TARS-2 paper — https://arxiv.org/abs/2509.02544 (sept 2025)
- UI-TARS GH — https://github.com/bytedance/ui-tars
- UI-TARS-desktop GH — https://github.com/bytedance/UI-TARS-desktop (33,5 k stars mai 2026)
- AGUVIS — https://aguvis-project.github.io/
MCP & adoption
- MCP roadmap 2026 — https://blog.modelcontextprotocol.io/posts/2026-mcp-roadmap/
- MCP adoption stats — https://www.digitalapplied.com/blog/mcp-adoption-statistics-2026-model-context-protocol (avril 2026)
- MCP 97 M downloads — https://www.digitalapplied.com/blog/mcp-97-million-downloads-model-context-protocol-mainstream (mars 2026)
- The New Stack MCP — https://thenewstack.io/model-context-protocol-roadmap-2026/
Nouveaux entrants & papiers
- Coasty open-cu GH — https://github.com/coasty-ai/open-computer-use
- InfiGUI-G1 AAAI 2026 — https://github.com/InfiXAI/InfiGUI-G1 + https://arxiv.org/abs/2508.05731
- GUI-Actor — https://microsoft.github.io/GUI-Actor/
- Alumnium WebVoyager — https://alumnium.ai/blog/webvoyager-benchmark/
- Magnitude WebVoyager — https://github.com/magnitudedev/webvoyager
- Awesome GUI Agent — https://github.com/showlab/Awesome-GUI-Agent
Document de veille à 23 mai 2026, lecture seule. Toute action (adoption framework, intégration bench, refonte) nécessite une décision explicite de Dom et un spec dédié.