Files
rpa_vision_v3/docs/recherche/AXE_E_FRAMEWORKS_BENCHMARKS.md

26 KiB
Raw Blame History

Axe E — Référentiel benchmarks GUI 2026 & delta frameworks RPA visuels

Date : 2026-05-23 Auteur : Claude (subagent veille) via Dom Périmètre : veille externe — pas de modif code. Source de référence à mettre à jour : docs/INSPIRATION_FRAMEWORKS_2026-05-10.md (10 mai 2026) + docs/superpowers/specs/2026-05-05-qw-suite-mai-design.md (5 mai 2026). Statut : veille brute, à valider avec Dom avant toute action.


1. TL;DR

En 2 semaines (10 → 23 mai 2026), 3 mouvements à retenir :

  1. OSWorld n'est plus humain-level, il est passé super-humain. Coasty (open source, github coasty-ai/open-computer-use) annonce 82 % sur OSWorld vs ~72 % humain, devant Claude Sonnet 4.6 à 73 % et Agent-S3 (Simular) à 69,9 %72,6 % (bBoN). OpenAI Operator stagne à 38 %. La marche entre "agent qui copie l'humain" et "agent qui fait mieux" est franchie côté frontière open source.
  2. WebVoyager est saturé. Om Labs 98,9 %, Alumnium 98,5 %, Magnitude 94 %. Skyvern 2.0 (85,85 %) n'est plus SOTA. Le benchmark ne discrimine plus — Skyvern a anticipé en lançant Web Bench (5 750 tâches × 452 sites, partenariat Halluminate).
  3. MCP est devenu standard d'agent. 97 M downloads SDK mensuel en mars 2026 (+970× en 18 mois), 78 % des équipes IA enterprise déclarent au moins un agent MCP en prod (avril 2026). Microsoft Agent 365 (GA 1er mai 2026) intègre gouvernance MCP au niveau tenant. Anthropic, OpenAI, Google Gemini et Vercel SDK supportent tous MCP nativement.

Tendances 2026 :

  • Mixture-of-Grounding et Best-of-N rollouts (Agent S2/S3 « bBoN ») remplacent le single-pass.
  • Continual learning sur GUI (GUI-AiF, AAAI 2026) émerge — replay engine devient training ground.
  • Le rythme des sorties papier sur arXiv (AAAI 2026, ICLR 2026) double vs 2025 sur la verticale "GUI agent".

Recommandation immédiate pour rpa_vision_v3 :

  • Adopter ScreenSpot-Pro (1 581 instructions, 23 apps, 3 OS, leaderboard maintenu jusqu'à mai 2026) comme bench de grounding interne — c'est le seul qui a des screenshots haute résolution réalistes (notre cas Easily Assure).
  • Surveiller Coasty open-computer-use (apparu post-doc inspiration) et Agent-S3 bBoN — les deux poussent un pattern Best-of-N qui résoudrait notre Validator laxiste (cf. §7).

2. Carte référentiel benchmarks GUI 2026

Benchmark Mesure Type tâches Utilité rpa_vision_v3
ScreenSpot (V1) Grounding pur (clic) sur captures recadrées 1 272 instructions web/desktop/mobile Faible (résolutions trop basses, "consumer apps")
ScreenSpot-V2 Idem V1, 11,32 % de samples re-annotés Idem V1 corrigé Référence académique, pas notre cas réel
ScreenSpot-Pro Grounding haute résolution pro 1 581 instructions, 23 apps pro, 3 OS, écrans HD ★★★★★ — notre cas
WindowsAgentArena Agent autonome end-to-end Windows 154 tâches Windows (Notepad, Paint, navigateurs, etc.) ★★★★ — OS cible
OSWorld Agent autonome end-to-end multi-OS 369 tâches (LibreOffice, Chrome, VS Code, file mgmt) ★★★★ — gold standard "agent"
OSWorld-Verified OSWorld durci anti-gaming (juillet 2025) Sous-ensemble vérifié humain ★★★
WebVoyager Agent web SOTA 610 tâches sites live, jugement GPT ★★ — saturé, pas notre cible (browser only)
Online-Mind2Web Agent web réaliste 300 tâches × 136 sites ★★
Web Bench (Skyvern + Halluminate) Agent web large couverture 5 750 tâches × 452 sites ★★
AgentBench (THUDM) LLM-as-agent multi-environnement 8 envs (OS, SQL, KG, jeux, web, etc.) ★ — trop générique
VisualWebBench Compréhension/grounding web MLLM 1,5 k instances × 139 sites
GUI-World (ICLR 2025) Compréhension vidéo GUI 6 scénarios × 8 types Q dynamiques ★ — pas notre angle replay
AndroidWorld Mobile Android agent 116 tâches × 20 apps Android ✗ — hors scope healthtech desktop
AndroidArena / A3 Mobile dynamique Tâches réalistes en ligne
MobileWorld (ACL 2026) Mobile + MCP-augmented Tâches user-interactive

Carte de couverture qui mesure quoi :

  • Grounding seul (point/bbox) → ScreenSpot-Pro (★ pour nous), ScreenSpot-V2, VisualWebBench.
  • Agent autonome Windows → WindowsAgentArena (★ pour nous).
  • Agent autonome multi-OS → OSWorld, OSWorld-Verified (★ pour nous, partiellement).
  • Agent web → WebVoyager (saturé), Online-Mind2Web, Web Bench.
  • Compréhension vidéo GUI → GUI-World.
  • Mobile → AndroidWorld, AndroidArena, MobileWorld (hors scope).

3. Fiches des 5 benchmarks les plus pertinents pour nous

3.1 ScreenSpot-Pro — arxiv:2504.07981

  • Composition : 1 581 instructions, 1 instruction par screenshot unique, 23 applications professionnelles, 5 secteurs (CAD, dev, ingénierie, science, design), 3 OS (Windows, macOS, Linux). Annotations expert humain.
  • Métriques : taux de clic correct (point dans bbox vérité-terrain), bbox IoU.
  • Dataset accessible : github likaixin2000/ScreenSpot-Pro-GUI-Grounding, leaderboard public gui-agent.github.io/grounding-leaderboard/ (MAJ 14 avril 2026).
  • SOTA mai 2026 :
    • GPT-5.2 (OpenAI) : 86,3 %
    • GPT-5.4 (OpenAI) : 85,4 % (référence benchlm.ai)
    • Muse Spark : 84,1 %
    • Gemini 3 Pro (Google) : 72,7 %
    • Qwen3.5 (féb 2026) : 70,3 % overall
    • Qwen3.5-35B-A3B : 68,6 %
    • Qwen2.5-VL-72B + RegionFocus : 61,6 %
    • Baseline historique (papier original) : 18,9 % (modèles non spécialisés).
  • Lien : https://arxiv.org/abs/2504.07981
  • Pertinence rpa_vision_v3 : c'est le seul bench grounding qui ressemble vraiment à Easily Assure — résolutions ≥ 1920×1080, mix de menus denses, panneaux à droite, tableaux. Notre MIGRATION_VLM_PLAN_2026-05-09.md cite ScreenSpot-Pro mais nous n'avons pas de score interne récent à comparer.

3.2 WindowsAgentArena (WAA) — arxiv:2409.08264

  • Composition : 154 tâches Windows réelles (Notepad, Paint, File Explorer, Clock, Settings, browsers, documents, vidéo, code).
  • Métriques : success rate task-level, parallélisable en Azure (~20 min run complet).
  • Dataset accessible : github microsoft/WindowsAgentArena, paper page huggingface.co/papers/2409.08264.
  • SOTA mai 2026 :
    • UI-TARS-2 (ByteDance, sept 2025) : 50,6 %
    • Multi-modal Navi (Microsoft, baseline) : 19,5 %
    • Humain : 74,5 %
  • Lien : https://microsoft.github.io/WindowsAgentArena/
  • Pertinence rpa_vision_v3 : ★★★★★ pour positionnement client GHT — Windows = terrain réel des TIM. Le gap humainmachine (74,5 % vs 50,6 % SOTA) est exactement le créneau où on opère (supervision médicale). Bench non saturé.

3.3 OSWorld / OSWorld-Verified

  • Composition : 369 tâches sur OS réels (Ubuntu/Windows), apps réelles (LibreOffice, Chrome, VS Code, file mgmt, multi-app workflows). OSWorld-Verified = sous-ensemble durci (juillet 2025) pour empêcher le gaming.
  • Métriques : success rate avec vérificateur déterministe par tâche (état final fichier, contenu DOM, etc.).
  • Dataset accessible : leaderboard public maintenu.
  • SOTA mai 2026 :
    • Coasty open-cu : 82 % (super-humain) — open source, gh coasty-ai/open-computer-use
    • Claude Opus 4.6 (Anthropic) : 72,7 %
    • Claude Sonnet 4.6 : 73 %
    • Agent-S3 + bBoN (Simular) : 72,6 % — premier à passer humain
    • Agent-S3 vanilla : 69,9 %
    • GPT-5.3 Codex : 65 %
    • GPT-5.2 Codex : 38 %
    • OpenAI Operator (CUA) : 38,1 %
    • Agent S2 (avril 2025) : 34,5 %
    • UI-TARS-2 (ByteDance) : 47,5 %
  • Lien : leaderboard via Coasty et Awesome Agents.
  • Pertinence rpa_vision_v3 : reference pour mesurer "où on en est par rapport au monde". Si on touche 30 % sur ces tâches en local-only, on est déjà compétitif.

3.4 WebVoyager — arxiv:2401.13919 + extension Web Bench

  • Composition initiale : 643 tâches × 15 sites (huit retirés post-Skyvern car obsolètes). Jugement GPT contre ≤ 15 screenshots/tâche.
  • Web Bench (Skyvern × Halluminate, 2026) : 5 750 tâches × 452 sites.
  • SOTA mai 2026 (WebVoyager) :
    • Om Labs (Claude Code + Opus 4.7 + GPT-5.4 Nano) : 98,9 %
    • Alumnium MCP (Claude Code + Selenium) : 98,5 %
    • Surfer 2 (H Company) : 97,1 %
    • Magnitude : 94 %
    • OpenAI CUA / Operator : 87 %
    • Skyvern 2.0 : 85,85 % (référence doc 10 mai 2026 — plus SOTA)
  • Lien : https://webvoyager.omlabs.xyz/
  • Pertinence rpa_vision_v3 : ★★ — pas notre cible (DPI Easily est partiellement web mais via Citrix souvent). À surveiller comme indicateur de saturation des benchs publics.

3.5 Bench candidat desktop Windows-spécifique → Online-Mind2Web + ScreenSpot-Pro suffisent

Aucun bench n'est plus "Windows-desktop natif" que WindowsAgentArena à date. Pour la verticale healthtech, il n'existe pas de bench public — c'est probablement une opportunité (créer EasilyBench-1 interne à partir de nos 11 dossiers GHT serait un asset commercial).


4. Mise à jour frameworks vs doc 10 mai 2026

4.1 OpenAdapt (OpenAdaptAI)

Aspect 10 mai 2026 23 mai 2026
Stars ~7 k en croissance
Dernier release PyPI non précisé 4 mars 2026 (PyPI)
Capacités VLM LLM/LMM/VLM/LAM + adaptateurs Qwen3-VL et Qwen2.5-VL via HF + PEFT
Phase produit Phase 2 (retrieval-only) validée Phase 3 (demo-conditioned fine-tuning) en cours
Infra local + intégration AWS C8i/M8i/R8i nested virt (févr 2026, ~$0,19/h)
Sous-projets mono-repo openadapt-ml + openadapt-evals splittés

Delta clé : OpenAdapt a structuré son écosystème en 3 dépôts (core + ML + evals). Le pattern "Evaluation-Driven Feedback" cité dans le doc 10 mai est désormais matérialisé dans openadapt-evals (infrastructure benchmarks). À étudier comme template pour notre TargetMemoryStore → pipeline d'entraînement.

4.2 Skyvern (Skyvern-AI)

Aspect 10 mai 2026 23 mai 2026
WebVoyager 85,85 % (cité comme SOTA) plus SOTA — 4 acteurs au-dessus
Nouveauté Planner-Actor-Validator + VWB Web Bench (5 750 tâches × 452 sites) avec Halluminate, fév 2026
Layout-resistant non cité dossier Layout-Resistant Tools (fév 2026)

Delta clé : Skyvern a réagi à la saturation de WebVoyager en lançant son propre méga-bench. Notre VWB partage le naming Visual Workflow Builder avec eux, pas un problème, convergence indépendante.

4.3 OmniParser (Microsoft)

Aspect 10 mai 2026 23 mai 2026
Version V2 (févr 2025) V2.0.1 (12 sept 2025) — patch sécurité CVE-2025-55322 RCE
Latence non précisée 60 % réduction vs V1, 0,60,8 s sur A100/4090
ScreenSpot-Pro non précisé 39,6 % sur détection d'interactables
V3 non annoncé

Delta clé : OmniParser V2 reste la référence "screen tokenizer". Pas de V3 en vue. Le patch CVE-2025-55322 est à connaître si on auto-héberge.

4.4 TagUI (AI Singapore)

Aspect 10 mai 2026 23 mai 2026
Statut actif mais "moins LLM-first" inchangé. V6 en chantier (Chrome visible par défaut)
Roadmap non précisée IDE + Orchestrator + Reporting Dashboard prévus

Delta clé : aucun mouvement majeur. TagUI évolue vers UI/orchestration, pas vers le RPA visuel LLM-first.

4.5 Anthropic Computer Use SDK / Claude

  • Claude Opus 4.6 annoncé.
  • Claude Sonnet 4.6 : 72,573 % OSWorld (qualifié de "barely human-level").
  • Claude Opus 4.6 : 72,7 % OSWorld.
  • Claude Opus 4.7 présent dans Om Labs (top WebVoyager 98,9 %).
  • Postmortem Anthropic mars-avril 2026 : 3 bugs latence/qualité (reasoning effort, caching, verbosity prompt). Résolus le 20 avril.

4.6 OpenAI Operator (CUA)

  • OSWorld : 38,1 % — n'a pas bougé. Coasty publie un Review titré "A 38% Score Is Not an AI Agent, It's a Beta Product" (mai 2026).
  • WebVoyager : 87 %, devancé.
  • Operator standalone sunset → fusionné dans ChatGPT "agent mode" depuis juillet 2025.
  • CUA exposé via API (Responses API, tier 3-5 select developers, research preview).

4.7 Simular Agent-S → Agent-S2 → Agent-S3

Version Date OSWorld Innovation
Agent-S 2024 architecture computer-use mature
Agent-S2 avril 2025 34,5 % (50 step) Mixture-of-Grounding + Proactive Hierarchical Planning
Agent-S3 déc 2025 / 2026 69,9 % (vanilla) → 72,6 % (Best-of-N "bBoN") suppression hiérarchie, native coding agent Python/Bash, Behavior Best-of-N (sample multiple rollouts, garde le meilleur)

Delta clé : Agent-S3 est devenu le premier agent à passer humain-level OSWorld (avant Coasty). Le pattern bBoN est probablement le quick-win le plus rentable pour notre Validator (cf. §7).

4.8 Magma (Microsoft Research)

  • Foundation model multimodal digital + physique (CVPR 2025, github microsoft/Magma MIT licence).
  • Innovations : Set-of-Mark (SoM) pour grounding action + Trace-of-Mark (ToM) pour planification.
  • Magma-8B sur HuggingFace.
  • Pas de release majeure en mai 2026, mais le pattern SoM/ToM est repris dans plusieurs papiers AAAI/ICLR.

4.9 Cradle (Microsoft Research)

  • Le terme "Cradle" est concurrencé en mai 2026 par Microsoft Agent 365 (GA 1er mai 2026) qui couvre la gouvernance/observabilité d'agents (incluant MCP servers). Pas de release Cradle spécifique.

4.10 OS-Atlas (OS-Copilot)

  • Statut : ICLR 2025 accepted, modèles OS-Atlas-Base-4B/7B + OS-Atlas-Pro-7B/4B sur HuggingFace.
  • ScreenSpot-V2 : re-annoté par OS-Atlas team (11,32 % de samples corrigés).
  • Pas de V2 OS-Atlas annoncée à mai 2026.

4.11 UI-TARS / UI-TARS-2 (ByteDance)

Version Date Notes
UI-TARS-1.5-7B mars 2026 (notre repo l'avait, commit 9da589c8c du 25 avril) abandonné par nous le 26 avril pour InfiGUI-G1-3B
UI-TARS-2 4 sept 2025 All-In-One Agent (GUI + Game + Code + Tool), Apache 2.0
UI-TARS-desktop mai 2026 33 573 stars = plus gros projet open source GUI agent

Scores UI-TARS-2 :

  • Online-Mind2Web : 88,2
  • OSWorld : 47,5
  • WindowsAgentArena : 50,6
  • AndroidWorld : 73,3

Delta clé : UI-TARS-2 est sorti AVANT le doc 10 mai mais n'y est pas mentionné. ByteDance détient désormais le plus grand écosystème GUI agent open source (33 k stars) — à reconsidérer comme alternative à InfiGUI-G1-3B sur notre serveur grounding.

4.12 AGUVIS (Salesforce + HKU)

  • Pas de release Salesforce 2026.
  • Toujours référencé comme baseline pure vision (89,2 grounding multi-plateforme, 51,9 % step success rate).
  • ICML 2025 accepted.

4.13 MCP (Model Context Protocol)

Métrique Mars-Avril 2026
Downloads SDK mensuels 97 millions (+970× en 18 mois)
Servers publics 9 400+ (vs 1 200 Q1 2025), +18 % mom Q1 2026
Adoption enterprise 78 % équipes IA ont ≥ 1 agent MCP en prod
CTOs déclarant MCP "default" 67 % dans 12 mois
Support LLM Claude (natif), ChatGPT (Apps SDK), Gemini (mars 2026), Cursor, Windsurf, Zed, JetBrains, Vercel AI SDK, OpenAI Agents SDK
Roadmap 2026 audit trails, SSO auth, gateway, config portability

Delta clé pour rpa_vision_v3 : on est dans la fenêtre où exposer notre engine via MCP serait un asset commercial (Skyvern, OpenAdapt, browser-use l'ont fait). Microsoft Agent 365 prévoit la gouvernance MCP au niveau tenant — vendeur d'argument healthtech (audit, conformité).


5. Nouveaux entrants 2026 — non couverts par les docs internes

5.1 Coasty (gh coasty-ai/open-computer-use)

  • 82 % OSWorld — premier au-dessus de Claude Sonnet 4.6 (73 %) et Agent-S3 (72,6 %).
  • "Production-ready, remote and local, one API key".
  • Open source.
  • À étudier ASAP : architecture probablement utile pour pousser notre OSWorld interne.

5.2 Agent-S3 bBoN (Simular)

  • Pattern Behavior Best-of-N : exécute N rollouts en parallèle, sélectionne le meilleur via judge.
  • 18,9 % et 32,7 % relative improvements vs baseline.
  • Lien direct avec notre Validator laxiste (bug step 10 Imagerie dans bandeau Edge) : bBoN éviterait que le mauvais rollout passe le VERIFY.

5.3 InfiGUI-G1 + AEPO (AAAI 2026 Oral)

  • Notre serveur grounding actuel (InfiGUI-G1-3B, commit 77faa03ec du 26 avril) repose dessus.
  • Adaptive Exploration Policy Optimization : +9 % vs RLVR baseline.
  • Acceptance AAAI 2026 Oral confirme robustesse.

5.4 Magnitude / Alumnium / Om Labs

  • Magnitude (gh magnitudedev/webvoyager) : 94 % WebVoyager.
  • Alumnium : 98,5 % WebVoyager via Claude Code + Selenium + MCP.
  • Om Labs (webvoyager.omlabs.xyz) : 98,9 % WebVoyager (avril 2026).
  • Pattern commun : couplage browser engine classique (Selenium/Playwright) + agent LLM. Pas notre angle (Citrix interdit DOM), mais à surveiller.

5.5 GUI-Actor (Microsoft)

  • microsoft/GUI-Actor-7B-Qwen2.5-VL sur HF.
  • Attention-based action head sans coordonnées (coordinate-free visual grounding).
  • 44,6 sur ScreenSpot-Pro avec Qwen2.5-VL backbone.

5.6 Papiers AAAI/ICLR/ICML 2026 à surveiller

  • TreeCUA (fév 2026, arxiv:2602.09662) — tree-structured verifiable evolution.
  • LiteGUI (arxiv:2605.07505) — distillation compact GUI via RL.
  • UltraCUA (arxiv:2510.17790) — foundation model CUA hybrid action.
  • Continual GUI Agents (arxiv:2601.20732) — continual learning sur GUI.
  • GUI-RCPO (arxiv:2509.21552) — self-improvement, +5 % ScreenSpot-V2.
  • MobileWorld (ACL 2026) — mobile + MCP-augmented.

6. Tendances 2026 — patterns émergents

  1. Best-of-N rollouts (Agent-S3 bBoN, Om Labs WebVoyager) : un seul agent run ne suffit plus, on parallélise et on garde le meilleur. Implication directe pour rpa_vision_v3 : notre VERIFY post-action devrait être un judge entre plusieurs candidats de grounding, pas un pHash global.

  2. Mixture-of-Grounding (Agent-S2, GUI-Actor) : différents modèles de grounding spécialisés pilotés par un routeur adaptatif. C'est exactement la spec F2 déclarée out-of-scope dans QW_SUITE_MAI mais qui devient mainstream.

  3. Continual learning on-the-fly (GUI-AiF AAAI 2026, OpenAdapt phase 3) : l'agent apprend pendant le replay. Notre TargetMemoryStore est conceptuellement aligné mais sans pipeline d'entraînement.

  4. MCP-first architecture : tous les acteurs majeurs (Anthropic, OpenAI, Google, Skyvern, browser-use, Alumnium) exposent ou consomment MCP. Le standard d'interop est tranché.

  5. Synthesis frameworks : on n'oppose plus RPA classique et AI agent. Skyvern (Planner-Actor-Validator), Agent-S3 (manager + native coding), Coasty (production-ready), OpenAdapt 3 dépôts. Le vainqueur est celui qui combine déclaratif + LLM + grounding spécialisé.

  6. Saturation des benchs publics et création de méga-benchs privés : WebVoyager saturé → Web Bench (5 750 × 452). OSWorld passé humain → futur OSWorld-2 inévitable.


7. Implications pour rpa_vision_v3

7.1 Frameworks méritant exploration deeper

Framework Pourquoi Effort lecture
Coasty open-computer-use (82 % OSWorld, OS) Architecture production-ready, "remote and local" qui matche notre Léa Windows + serveur Linux 12 j
Agent-S3 bBoN (72,6 % OSWorld, open) Best-of-N résout notre Validator laxiste (bug step 10) 0,51 j paper + code
OpenAdapt phase 3 (demo-conditioned fine-tuning) Template pour brancher TargetMemoryStore sur un pipeline d'entraînement 1 j paper + code
UI-TARS-2 + UI-TARS-desktop (33 k stars) Alternative à InfiGUI-G1-3B sur notre serveur grounding 1 j eval
MCP serveur (Skyvern, browser-use, Anthropic) Exposer rpa_vision_v3 en MCP = standard interop healthtech 23 j POC

7.2 Benchmarks à adopter pour mesurer notre progrès

  1. ScreenSpot-Pro (priorité 1) — refaire un bench grounding sur les 5 modèles déjà testés (qwen2.5vl:7b Ollama, qwen3-vl:8b, InfiGUI-G1-3B, UI-TARS-2, qwen3.5). Permet de positionner notre stack sur un référentiel public.
    • Notre BENCH_GROUNDING_INTERNE_2026-05-08 ne contient qu'1 fixture (heartbeat dialog OK/Cancel) — c'est trop pauvre.
  2. WindowsAgentArena (priorité 2) — adapter 510 tâches du WAA "browsers/documents" à notre stack pour avoir un repère agent autonome public.
  3. EasilyBench-1 interne (priorité 3) — créer un bench fermé à partir des 11 dossiers GHT (workflow Urgence_aiva_demo + variantes). Asset commercial : "on a notre propre eval validée par médecin DIM".

7.3 Patterns à formaliser dans la doc (gratuit, zéro code)

Le doc 10 mai recommandait déjà Policy / Grounding / Safety Gate / Validator. À ajouter :

  • Best-of-N rollouts (bBoN) comme alternative au pHash VERIFY.
  • Mixture-of-Grounding comme nom officiel de notre cascade.
  • Screen Tokenizer comme nom de la suggestion §4.1 du doc 10 mai (log candidats à chaque _resolve_target).
  • MCP-first dans la roadmap interop.

7.4 Mises à jour à porter dans INSPIRATION_FRAMEWORKS_2026-05-10.md

  • §3.1 Skyvern : retirer "85,85 % WebVoyager SOTA" — ajouter "85,85 % avant Om Labs/Alumnium/Magnitude/Surfer 2 — Skyvern a lancé Web Bench (5 750 × 452)".
  • §4.1 OmniParser : préciser V2.0.1 + patch CVE-2025-55322 + 39,6 % ScreenSpot-Pro + 60 % latence réduite.
  • §5 ajouter Coasty, Agent-S3, UI-TARS-2 comme entrants 2026 majeurs.
  • §6 ajouter MCP server architecture comme présent, pas long-terme.
  • §7 ajouter "Best-of-N" et "Continual learning" comme nouveaux patterns convergents.

8. Sources (avec dates)

Benchmarks

Frameworks (delta 10 → 23 mai 2026)

MCP & adoption

Nouveaux entrants & papiers


Document de veille à 23 mai 2026, lecture seule. Toute action (adoption framework, intégration bench, refonte) nécessite une décision explicite de Dom et un spec dédié.