feat: vérification CLIP avant chaque clic (filet de sécurité app)

Avant la résolution visuelle, compare l'embedding CLIP de l'écran actuel (fenêtre) avec l'embedding de référence (enregistrement). Si similarité < 0.75 → mauvaise application → STOP. CLIP sur fenêtre = insensible au fond d'écran. CLIP ne distingue pas les états fins (texte différent) → le titre de fenêtre reste la vérification principale. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-05 18:49:19 +02:00
parent d3e928bebe
commit 46206d9396
1 changed files with 43 additions and 2 deletions
--- a/agent_v0/server_v1/api_stream.py
+++ b/agent_v0/server_v1/api_stream.py
@@ -5182,10 +5182,51 @@ def _resolve_target_sync(
            if by_text_strict or by_role:
                vlm_description = _build_target_description(target_spec)
        # ---------------------------------------------------------------
        # Étape -1 : Vérification CLIP (si embedding de référence fourni)
        # Vérifie qu'on est dans la bonne application avant de chercher
        # l'élément. Filet de sécurité contre les clics au mauvais endroit.
        # ---------------------------------------------------------------
        clip_embedding = target_spec.get("clip_embedding")
        if clip_embedding:
            try:
                from core.embedding.clip_embedder import CLIPEmbedder
                from PIL import Image as _PILImage
                import numpy as _np
                _clip = CLIPEmbedder()
                # Embedding de l'écran actuel (fenêtre si possible)
                window_capture = target_spec.get("window_capture", {})
                window_rect = window_capture.get("rect")
                current_img = _PILImage.open(screenshot_path)
                if window_rect:
                    current_img = current_img.crop(tuple(window_rect))
                current_emb = _np.array(_clip.embed_image(current_img), dtype=_np.float32).flatten()
                ref_emb = _np.array(clip_embedding, dtype=_np.float32).flatten()
                clip_sim = float(_np.dot(current_emb, ref_emb) / (
                    _np.linalg.norm(current_emb) * _np.linalg.norm(ref_emb)
                ))
                logger.info(f"CLIP vérification : similarité={clip_sim:.3f}")
                if clip_sim < 0.75:
                    logger.warning(
                        f"CLIP MISMATCH : sim={clip_sim:.3f} < 0.75 — "
                        f"écran actuel trop différent de l'enregistrement"
                    )
                    return {
                        "resolved": False,
                        "method": "clip_mismatch",
                        "reason": f"clip_similarity_{clip_sim:.3f}",
                        "x_pct": fallback_x_pct,
                        "y_pct": fallback_y_pct,
                    }
            except Exception as e:
                logger.debug(f"CLIP vérification erreur (non-bloquant) : {e}")
        # ---------------------------------------------------------------
        # Étape 0 : Choisir la stratégie selon le type d'élément
        # - Texte OCR fiable → grounding VLM (description textuelle)
        # - Icône sans texte → template matching (crop 80x80)
        # ---------------------------------------------------------------
        by_text_source = target_spec.get("by_text_source", "")