Utilise shot_XXXX_window.png (capture fenêtre active) au lieu du
full screen pour le grounding VLM. Image plus petite, ciblée,
sans bruit (taskbar, autres fenêtres).
Coordonnées fenêtre converties en coordonnées écran via window_rect.
window_capture (rect, window_size, click_relative) ajouté au target_spec.
Résultat : 50% → 80% de précision sur la session VM (16/20 clics).
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>