feat(extraction): map_roles — orchestrateur VLM ancrage strict (client injectable)

build_role_prompt (modes libre / guidé par rôles), parse_vlm_json (robuste : tolère les fences, {} si invalide), map_roles (prompt -> VLM -> parse -> reconstruct). Client VLM injecté => testable hors-ligne. 6 tests unit ajoutés (15 au total). Non branché au runtime (brique validée isolément). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-30 11:34:43 +02:00
parent 14b1bf844a
commit a62b720144
2 changed files with 144 additions and 1 deletions
--- a/core/extraction/role_mapper.py
+++ b/core/extraction/role_mapper.py
@@ -12,8 +12,9 @@ est orchestré ailleurs (et mockable), pour rester testable hors-ligne.
 """
 from __future__ import annotations
 import json
 from dataclasses import dataclass
-from typing import List, Optional, Sequence, Tuple
+from typing import Callable, List, Optional, Sequence, Tuple
 BBox = Tuple[int, int, int, int]  # (x_min, y_min, x_max, y_max)
@@ -121,3 +122,86 @@ def reconstruct_fields(
            invalid_ids=invalid,
        ))
    return out
 # --- Orchestration VLM (client injectable pour rester testable hors-ligne) ---
 # Un client VLM est un callable (image_path, prompt) -> texte de réponse.
 VlmClient = Callable[[str, str], str]
 def build_role_prompt(
    tokens: Sequence[OcrToken],
    roles: Optional[Sequence[str]] = None,
 ) -> str:
    """Construit le prompt d'attribution de rôles (ancrage strict par ids).
    Mode *guidé* si `roles` est fourni (rôles attendus de l'écran), sinon *libre*
    (le VLM nomme lui-même les champs). Dans les deux cas le VLM ne renvoie que
    des `value_ids` — jamais de texte recopié.
    """
    ocr_list = [{"id": t.id, "text": t.text} for t in tokens]
    if roles:
        roles_line = (
            "Rôles attendus sur cet écran (associe chacun s'il est présent) : "
            + ", ".join(roles) + ".\n"
        )
    else:
        roles_line = (
            "Identifie librement les champs présents — le 'label' est le rôle du champ.\n"
        )
    return (
        "Tu reçois une capture d'écran d'un dossier patient et la liste des tokens "
        "détectés par OCR (chaque token : id, text).\n"
        + roles_line +
        "Pour chaque champ, désigne les tokens OCR qui composent sa VALEUR.\n"
        "RÈGLES STRICTES :\n"
        "- Tu ne recopies AUCUN texte. Tu renvoies seulement 'value_ids' : la liste "
        "des id de tokens OCR (dans l'ordre de lecture) qui forment la valeur.\n"
        "- 'label' = le rôle du champ. N'invente aucun champ.\n"
        "- Réponds UNIQUEMENT en JSON PLAT :\n"
        '{"ecran":"<type en 3 mots>","champs":[{"label":"...","value_ids":[<int>,...]}]}\n\n'
        "Tokens OCR :\n" + json.dumps(ocr_list, ensure_ascii=False)
    )
 def parse_vlm_json(text: str) -> dict:
    """Extrait le 1er objet JSON d'une réponse VLM (tolère les fences ```json).
    Robuste : renvoie `{}` si la réponse n'est pas du JSON exploitable (pas de
    crash en batch).
    """
    if not text:
        return {}
    s = text.strip()
    if "```" in s:
        parts = s.split("```")
        if len(parts) >= 2:
            s = parts[1]
            if s.lstrip().lower().startswith("json"):
                s = s.lstrip()[4:]
    a, b = s.find("{"), s.rfind("}")
    if a < 0 or b <= a:
        return {}
    try:
        return json.loads(s[a:b + 1])
    except (ValueError, TypeError):
        return {}
 def map_roles(
    image_path: str,
    tokens: Sequence[OcrToken],
    vlm_client: VlmClient,
    roles: Optional[Sequence[str]] = None,
 ) -> List[MappedField]:
    """Orchestre l'attribution de rôles : prompt → VLM → parse → reconstruction ancrée.
    `vlm_client` est injecté (testable hors-ligne). Le résultat est toujours
    ancré sur l'OCR via `reconstruct_fields`.
    """
    prompt = build_role_prompt(tokens, roles)
    raw = vlm_client(image_path, prompt)
    data = parse_vlm_json(raw)
    vlm_fields = data.get("champs", []) if isinstance(data, dict) else []
    return reconstruct_fields(tokens, vlm_fields)
--- a/tests/unit/test_role_mapper.py
+++ b/tests/unit/test_role_mapper.py
@@ -8,6 +8,8 @@ import pytest
 from core.extraction.role_mapper import (
    OcrToken,
    build_role_prompt,
    map_roles,
    reconstruct_fields,
    tokens_from_grid,
 )
@@ -91,3 +93,60 @@ def test_tokens_from_grid_indexe_et_normalise_bbox():
    assert [t.id for t in tokens] == [0, 1]
    assert tokens[0].text == "Nom"
    assert tokens[1].bbox == (20, 0, 60, 8)
 # --- map_roles : orchestrateur (client VLM injectable, donc testable hors-ligne) ---
 def _fake_client(response, capture=None):
    """Faux client VLM : enregistre éventuellement le prompt reçu, renvoie une réponse fixe."""
    def client(image_path, prompt):
        if capture is not None:
            capture["prompt"] = prompt
            capture["image_path"] = image_path
        return response
    return client
 def test_map_roles_reconstruit_via_client_injecte():
    tokens = [_tok(0, "DUPONT"), _tok(1, "Jean")]
    client = _fake_client('{"champs":[{"label":"Nom complet","value_ids":[0,1]}]}')
    fields = map_roles("img.png", tokens, client)
    assert len(fields) == 1
    assert fields[0].label == "Nom complet"
    assert fields[0].value == "DUPONT Jean"
 def test_map_roles_tolere_les_fences_json():
    tokens = [_tok(0, "DUPONT")]
    client = _fake_client('```json\n{"champs":[{"label":"Nom","value_ids":[0]}]}\n```')
    fields = map_roles("img.png", tokens, client)
    assert fields[0].value == "DUPONT"
 def test_map_roles_json_invalide_retourne_liste_vide():
    # robustesse batch : une réponse VLM non-JSON ne doit pas crasher.
    tokens = [_tok(0, "DUPONT")]
    client = _fake_client("désolé, je n'ai pas compris")
    fields = map_roles("img.png", tokens, client)
    assert fields == []
 def test_build_role_prompt_inclut_les_tokens_avec_ids():
    tokens = [_tok(0, "Poids"), _tok(1, "72")]
    prompt = build_role_prompt(tokens)
    assert "Poids" in prompt and "72" in prompt
    assert "value_ids" in prompt  # on demande bien des ids, pas du texte recopié
 def test_build_role_prompt_guide_liste_les_roles_attendus():
    tokens = [_tok(0, "X")]
    prompt = build_role_prompt(tokens, roles=["Nom", "IPP", "Poids"])
    assert "Nom" in prompt and "IPP" in prompt and "Poids" in prompt
 def test_map_roles_passe_les_roles_au_prompt():
    tokens = [_tok(0, "X")]
    cap = {}
    client = _fake_client('{"champs":[]}', capture=cap)
    map_roles("img.png", tokens, client, roles=["Diagnostic", "GEMSA"])
    assert "Diagnostic" in cap["prompt"] and "GEMSA" in cap["prompt"]