Dom
2ddccff108
feat: SomEngine — Set-of-Mark avec YOLO + docTR pour détection UI
- SomEngine : détecte et numérote tous les éléments UI d'un screenshot
- YOLO v8 (OmniParser) : détection icônes/boutons (~15ms GPU)
- docTR : OCR pour le texte visible
- Annotation visuelle : numéros rouges sur chaque élément
- find_element_at(x, y) : trouve l'élément cliqué par coordonnées
- Fix Florence-2 / transformers 4.57 incompatibilité (past_key_values)
- Testé : 107 éléments détectés sur screenshot Windows 2560x1600
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-31 08:26:07 +02:00
..
2026-01-24 02:34:01 +01:00
2026-03-26 10:19:18 +01:00
2026-01-29 11:23:51 +01:00
2026-01-29 11:23:51 +01:00
2026-01-29 11:23:51 +01:00
2026-01-24 02:34:01 +01:00
2026-03-31 08:26:07 +02:00
2026-01-29 11:23:51 +01:00
2026-03-26 10:19:18 +01:00
2026-03-26 10:19:18 +01:00