fix: injecter les tags réels du dossier dans le prompt CPAM pour éliminer les tags génériques [TYPE-N]

Le LLM générait des tags génériques [BIO-N], [TRT-N] au lieu des vrais tags du dossier, causant des warnings "preuve non traçable". Corrigé en 3 points : - cpam_context: liste exhaustive des tags disponibles injectée dans le prompt - templates: remplacement des patterns génériques par {tags_disponibles_str} - cpam_validation: guardian step 4b résout les tags génériques résiduels Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-04 23:14:40 +01:00
parent 798cee463f
commit 542797a124
3 changed files with 78 additions and 3 deletions
--- a/src/control/cpam_context.py
+++ b/src/control/cpam_context.py
@@ -191,7 +191,12 @@ def _build_tagged_context(dossier: DossierMedical) -> tuple[str, dict[str, str]]
    if not lines:
        return "", tag_map
-    text = "ÉLÉMENTS CLINIQUES RÉFÉRENCÉS (cite le tag [XX-N] dans tes preuves) :\n" + "\n".join(lines)
+    available = ", ".join(f"[{t}]" for t in sorted(tag_map.keys()))
    text = (
        "ÉLÉMENTS CLINIQUES RÉFÉRENCÉS :\n"
        + "\n".join(lines)
        + f"\n\nTAGS DISPONIBLES pour ce dossier (liste EXHAUSTIVE, n'en invente aucun) : {available}"
    )
    return text, tag_map
@@ -839,6 +844,10 @@ def _build_cpam_prompt(
                + "\n".join(ext_lines)
            )
    tags_disponibles_str = (
        ", ".join(f"[{t}]" for t in sorted(tag_map.keys()))
        if tag_map else "(aucun)"
    )
    prompt = CPAM_ARGUMENTATION.format(
        dossier_str=dossier_str,
        asymetrie_str=asymetrie_str,
@@ -853,5 +862,6 @@ def _build_cpam_prompt(
        extraction_str=extraction_str,
        bio_confrontation_str=bio_confrontation,
        numero_ogc=controle.numero_ogc,
        tags_disponibles_str=tags_disponibles_str,
    )
    return prompt, tag_map
--- a/src/control/cpam_validation.py
+++ b/src/control/cpam_validation.py
@@ -32,6 +32,48 @@ def _fuzzy_match_ref(ref: str, tag_map: dict[str, str]) -> str | None:
    return None
 GENERIC_TAG_RE = re.compile(r"\[([A-Z]+)-N\]")
 def _resolve_generic_tag(
    prefix: str, fait: str, tag_map: dict[str, str]
 ) -> str | None:
    """Résout un tag générique [PREFIX-N] vers le vrai tag le plus proche.
    Cherche dans *tag_map* les tags commençant par *prefix* dont le contenu
    partage des mots-clés significatifs avec *fait*.
    """
    fait_lower = fait.lower()
    fait_words = set(fait_lower.split())
    # Mots trop communs à ignorer
    stop = {"de", "du", "le", "la", "les", "un", "une", "des", "et", "ou", "en", "à", "=", "mg", "l", "g", "ml"}
    fait_words -= stop
    best_tag: str | None = None
    best_score = 0
    for tag, content in tag_map.items():
        if not tag.startswith(prefix + "-"):
            continue
        content_lower = content.lower()
        content_words = set(content_lower.split()) - stop
        # Score = nombre de mots en commun + bonus substring
        score = len(fait_words & content_words)
        if fait_lower in content_lower or content_lower in fait_lower:
            score += 3
        if score > best_score:
            best_score = score
            best_tag = tag
    # Fallback : si un seul tag de ce prefix existe, le prendre
    if best_tag is None:
        candidates = [t for t in tag_map if t.startswith(prefix + "-")]
        if len(candidates) == 1:
            best_tag = candidates[0]
    return best_tag
 def _validate_grounding(response_data: dict, tag_map: dict[str, str]) -> list[str]:
    """Vérifie que les références dans preuves correspondent à des tags existants.
@@ -856,6 +898,28 @@ def _guardian_deterministic(
                        report["preuves_invalid_tags"].append(tag)
                        penalties += 0.5
    # ===== 4b. Corriger les tags génériques [TYPE-N] → vrai tag =====
    if tag_map:
        for moyen in result.get("moyens_defense", []):
            if not isinstance(moyen, dict):
                continue
            for preuve in moyen.get("preuves", []):
                if not isinstance(preuve, dict):
                    continue
                ref = str(preuve.get("ref", ""))
                m = GENERIC_TAG_RE.search(ref)
                if m:
                    prefix = m.group(1)  # ex: "BIO"
                    fait = str(preuve.get("fait", "")).lower()
                    best_tag = _resolve_generic_tag(prefix, fait, tag_map)
                    if best_tag:
                        preuve["ref"] = f"[{best_tag}]"
                        report["tags_corrected"] = report.get("tags_corrected", 0) + 1
                        logger.info(
                            "Guardian 4b: [%s-N] → [%s] (fait: %s)",
                            prefix, best_tag, fait[:60],
                        )
    # ===== 5. Nettoyage des champs texte libre =====
    # Remplacer les valeurs bio hallucinées dans les strings (conclusion, rappel, etc.)
    text_fields = [
--- a/src/prompts/templates.py
+++ b/src/prompts/templates.py
@@ -329,7 +329,8 @@ CONSIGNES DE RÉDACTION DES MOYENS
 6. JAMAIS d'argument sans preuve traçable — si tu n'as pas la preuve, NE FAIS PAS l'argument
 7. Ton ASSERTIF mais factuel — pas de formules creuses ("il convient de noter que...")
 8. Si un point CPAM est légitime, le reconnaître CLAIREMENT (R4)
-9. Tags valides UNIQUEMENT : [DP], [DAS-N], [BIO-N], [IMG-N], [TRT-N], [ACTE-N], [ANT-N], [COMPL-N]
+9. Tags valides UNIQUEMENT ceux listés ci-dessus : {tags_disponibles_str}
   Si un élément n'a pas de tag, décris le fait en clair SANS inventer de tag
 Réponds UNIQUEMENT avec un objet JSON :
 {{
@@ -346,7 +347,7 @@ Réponds UNIQUEMENT avec un objet JSON :
    {{
      "numero": 1,
      "titre": "Titre court du moyen (ex: Le DP N17.8 est justifié par la biologie)",
-      "argument": "Développement avec preuves tagées [XX-N], valeurs bio avec seuils, sources réglementaires",
+      "argument": "Développement avec preuves tagées (utiliser les tags listés ci-dessus), valeurs bio avec seuils, sources réglementaires",
      "preuves": [
        {{"ref": "[BIO-1]", "fait": "Créatinine = 280 µmol/L [norme 50-120]", "signification": "IRA confirmée"}}
      ],