Files

Dom a7de6a488b feat: replay E2E fonctionnel — 25/25 actions, 0 retries, SomEngine via serveur

Validé sur PC Windows (DESKTOP-58D5CAC, 2560x1600) :
- 8 clics résolus visuellement (1 anchor_template, 1 som_text_match, 6 som_vlm)
- Score moyen 0.75, temps moyen 1.6s
- Texte tapé correctement (bonjour, test word, date, email)
- 0 retries, 2 actions non vérifiées (OK)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-31 14:04:41 +02:00

5.2 KiB

Raw Blame History

Benchmark SomEngine vs Résolution actuelle

Date : 31 mars 2026 Objectif : Évaluer la capacité de SomEngine (YOLO + docTR) à identifier les éléments UI cliqués sur des sessions de replay réelles.

Résumé exécutif

Métrique	Valeur
Sessions analysées	5
Clics testés	75
Éléments trouvés	60
Éléments non trouvés	15
Taux de réussite global	80.0%
Temps médian par screenshot	213 ms
Éléments détectés par screenshot (médiane)	233

Méthodologie

5 sessions les plus récentes (16-18 mars 2026), toutes capturées sur Windows (2560x1600)
Pour chaque clic mouse_click avec screenshot_id et pos, SomEngine analyse le screenshot full et cherche un élément UI dans un rayon de 30px autour du point de clic
Maximum 30 clics testés par session (session 87 clics limitée à 30)
Pas de comparaison directe avec VLM Quick Find (pas de données VLM enregistrées dans les sessions)

Résultats par session

Session	Date	Clics testés	Trouvés	Taux	Contexte
`sess_20260318T010719_62a058`	18 mars	30	23	76.7%	Gmail, Explorateur, Pseudonymisation
`sess_20260317T102307_67dfad`	17 mars	12	11	91.7%	Bloc-notes, Explorateur, Rechercher
`sess_20260316T204729_61eb09`	16 mars	14	11	78.6%	Bloc-notes, Enregistrer sous
`sess_20260316T194221_f2f762`	16 mars	8	7	87.5%	Bloc-notes, Rechercher
`sess_20260316T192726_179860`	16 mars	11	8	72.7%	Bloc-notes, Enregistrer sous

Performance temporelle

Métrique	Valeur
Temps moyen (warm)	229 ms
Temps médian	213 ms
P95	345 ms
Min	161 ms
Max	2013 ms (cold start)
Cold starts (>1s)	1 sur 75

A comparer avec VLM Quick Find qui nécessite un appel Ollama (typiquement 1-5s selon le modèle et la charge GPU).

SomEngine est ~5-20x plus rapide que le VLM pour la détection pure.

Répartition par source de détection

Source	Éléments trouvés	Proportion
YOLO (icônes/boutons)	50	83.3%
OCR (texte docTR)	10	16.7%

YOLO domine largement, ce qui est attendu : les clics ciblent principalement des boutons et icônes interactifs.

Labels les plus fréquents (éléments trouvés)

Label	Occurrences	Source typique
(vide — icône sans texte)	27	yolo
Enregistrer	5	yolo
Ouvrir	4	yolo/ocr
Fichier	3	yolo/ocr
Rechercher	3	yolo
Terminer	3	yolo
Arrêter	2	yolo/ocr

Observation : 45% des éléments trouvés n'ont pas de label textuel (icônes YOLO sans OCR associé). C'est une faiblesse pour le replay sémantique car on ne sait pas QUOI a été cliqué, seulement OU.

Analyse des échecs (15 MISS)

Les 15 clics non résolus tombent dans ces catégories :

Clics dans des zones de texte/contenu (majorité) : corps d'email Gmail, zone d'édition Bloc-notes, barre d'adresse. SomEngine détecte les boutons et labels mais pas les zones de saisie libre.
Éléments très proches : dans Gmail, plusieurs éléments d'email empilés verticalement. Le clic tombe entre deux bbox détectées.
Marge de 30px insuffisante : certains clics tombent juste en dehors de la bbox détectée, surtout pour les petits éléments.

Malgré 140-434 éléments détectés par screenshot, le taux de MISS reste significatif (20%) car les zones de contenu pur (textarea, corps d'email) ne sont pas modélisées comme éléments interactifs.

Comparaison qualitative avec VLM Quick Find

Critère	SomEngine	VLM Quick Find
Vitesse	~230ms	~2-5s
Taux de résolution	80%	Non benchmarké (estimation ~60-70% basée sur les logs)
Sémantique	Faible (label OCR ou vide)	Forte (description contextuelle)
Dépendance GPU	YOLO + docTR (~200ms)	Ollama inference (~2-5s)
Zones de texte	Non détectées	Détectées via VLM
Robustesse écrans complexes	Bonne (233 éléments médians)	Variable

Recommandations

SomEngine est un excellent complément, pas un remplacement du VLM. La vitesse (230ms vs 2-5s) le rend idéal comme premier pass.
Stratégie hybride recommandée : SomEngine d'abord (fast pass), puis VLM en fallback uniquement si SomEngine échoue. Cela devrait réduire le temps moyen de résolution de 70-80%.
Améliorer le labeling : 45% des éléments YOLO n'ont pas de label. Croiser la bbox YOLO avec l'OCR docTR pour enrichir les labels (si un texte OCR est adjacent ou contenu dans la bbox YOLO).
Augmenter la marge pour les zones de saisie : les clics dans les textarea/champs d'édition ne sont pas captés. Ajouter une détection spécifique des zones de saisie (via OCR contextuel ou heuristique de grandes zones vides).
Le taux de 80% est bon pour un premier déploiement et supérieur aux estimations du VLM seul. Combiné en hybride, on peut viser >90%.

Données brutes : data/analytics/som_benchmark_raw.json Script de benchmark exécuté manuellement, pas de modification du code source.

5.2 KiB Raw Blame History