feat: architecture multi-modèles LLM + quality engine + benchmark

- Multi-modèles : 4 rôles LLM (coding=gemma3:27b-cloud, cpam=gemma3:27b-cloud, validation=deepseek-v3.2:cloud, qc=gemma3:12b) avec get_model(role) - Prompts externalisés : 7 templates dans src/prompts/templates.py - Cache Ollama : modèle stocké par entrée (migration auto ancien format) - call_ollama() : paramètre role= (priorité: model > role > global) - Quality engine : veto_engine + decision_engine + rules_router (YAML) - Benchmark qualité : scripts/benchmark_quality.py (A/B, métriques CIM-10) - Fix biologie : valeurs qualitatives (troponine négative) non filtrées - Fix CPAM : gemma3:27b-cloud au lieu de deepseek (JSON tronqué par thinking) - CPAM max_tokens 4000→6000, viewer admin multi-modèles - Benchmark 10 dossiers : 100% DAS valides, 10/10 CPAM, 243s/dossier Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-20 00:21:09 +01:00
parent 5c8c2817ec
commit 909e051cc9
39 changed files with 5092 additions and 574 deletions
--- a/src/medical/rag_search.py
+++ b/src/medical/rag_search.py
@@ -8,7 +8,7 @@ from concurrent.futures import ThreadPoolExecutor, as_completed

 from ..config import (
    ActeCCAM, Diagnostic, DossierMedical, PreuveClinique, RAGSource,
-    OLLAMA_CACHE_PATH, OLLAMA_MAX_PARALLEL, OLLAMA_MODEL,
+    OLLAMA_CACHE_PATH, OLLAMA_MAX_PARALLEL, get_model,
    EMBEDDING_MODEL, RERANKER_MODEL,
 )
 from .cim10_dict import normalize_code, validate_code as cim10_validate, fallback_parent_code
@@ -17,6 +17,7 @@ from .clinical_context import build_enriched_context, format_enriched_context
 from .ccam_dict import validate_code as ccam_validate
 from .ollama_client import call_ollama, parse_json_response
 from .ollama_cache import OllamaCache
+from ..prompts import CODING_CIM10, CODING_CCAM, DAS_EXTRACTION

 logger = logging.getLogger(__name__)

@@ -138,7 +139,8 @@ def search_similar(query: str, top_k: int = 10) -> list[dict]:
    from .rag_index import get_index
    import numpy as np

-    result = get_index()
+    # Codage CIM-10 : on interroge l'index "ref" (pas le guide méthodo).
+    result = get_index(kind="ref")
    if result is None:
        logger.warning("Index FAISS non disponible")
        return []
@@ -163,17 +165,32 @@ def search_similar(query: str, top_k: int = 10) -> list[dict]:
        meta["score"] = float(score)
        raw_results.append(meta)

-    # Prioriser les sources CIM-10 (au moins 6 sur top_k)
-    cim10_results = [r for r in raw_results if r["document"] in ("cim10", "cim10_alpha")]
-    other_results = [r for r in raw_results if r["document"] not in ("cim10", "cim10_alpha")]
+    # Codage : on garde uniquement CIM-10 + index alpha + éventuels référentiels uploadés en ref:...
+    cim10_results = [r for r in raw_results if r.get("document") == "cim10"]
+    alpha_results = [r for r in raw_results if r.get("document") == "cim10_alpha"]
+    ref_uploads = [r for r in raw_results if str(r.get("document", "")).startswith("ref:")]

-    min_cim10 = min(6, len(cim10_results))
-    final = cim10_results[:min_cim10]
-    remaining_slots = top_k - len(final)
-    # Remplir le reste avec les meilleurs résultats (CIM-10 restants + autres)
-    remaining = cim10_results[min_cim10:] + other_results
-    remaining.sort(key=lambda r: r["score"], reverse=True)
-    final.extend(remaining[:remaining_slots])
+    cim10_results.sort(key=lambda r: r["score"], reverse=True)
+    alpha_results.sort(key=lambda r: r["score"], reverse=True)
+    ref_uploads.sort(key=lambda r: r["score"], reverse=True)
+
+    # Quotas : on veut garder le codage ancré sur CIM-10, tout en gardant un peu d'alpha et de ref.
+    q_cim10 = min(6, top_k)
+    q_alpha = 2 if top_k >= 10 else (1 if top_k >= 8 else 0)
+    q_alpha = min(q_alpha, max(0, top_k - q_cim10))
+    q_ref = max(0, top_k - q_cim10 - q_alpha)
+    q_ref = min(q_ref, 2)  # éviter que les uploads 'ref:' prennent tout l'espace contexte
+
+    final: list[dict] = []
+    final.extend(cim10_results[:q_cim10])
+    final.extend(alpha_results[:q_alpha])
+    final.extend(ref_uploads[:q_ref])
+
+    # Compléter si on a moins que top_k (ex: pas assez d'alpha/ref)
+    if len(final) < top_k:
+        remaining = cim10_results[q_cim10:] + alpha_results[q_alpha:] + ref_uploads[q_ref:]
+        remaining.sort(key=lambda r: r["score"], reverse=True)
+        final.extend(remaining[: (top_k - len(final))])

    return final

@@ -186,7 +203,8 @@ def search_similar_ccam(query: str, top_k: int = 8) -> list[dict]:
    from .rag_index import get_index
    import numpy as np

-    result = get_index()
+    # CCAM : index "ref".
+    result = get_index(kind="ref")
    if result is None:
        logger.warning("Index FAISS non disponible")
        return []
@@ -236,30 +254,44 @@ def search_similar_cpam(query: str, top_k: int = 8) -> list[dict]:
    from .rag_index import get_index
    import numpy as np

-    result = get_index()
-    if result is None:
+    # Contexte CPAM : on veut des procédures (guide) + définitions référentielles (CIM-10).
+    proc = get_index(kind="proc")
+    ref = get_index(kind="ref")
+    if proc is None and ref is None:
        logger.warning("Index FAISS non disponible")
        return []

-    faiss_index, metadata = result
-
    model = _get_embed_model()
    query_vec = model.encode([query], normalize_embeddings=True)
    query_vec = np.array(query_vec, dtype=np.float32)

-    # Fetch élargi pour compenser le filtrage agressif
-    fetch_k = min(top_k * 3, faiss_index.ntotal)
-    scores, indices = faiss_index.search(query_vec, fetch_k)
+    def _search_one(result_tuple, fetch_mult: int) -> list[dict]:
+        if result_tuple is None:
+            return []
+        faiss_index, metadata = result_tuple
+        fetch_k = min(top_k * fetch_mult, faiss_index.ntotal)
+        scores, indices = faiss_index.search(query_vec, fetch_k)
+        out = []
+        for score, idx in zip(scores[0], indices[0]):
+            if idx < 0:
+                continue
+            if float(score) < _MIN_SCORE_CPAM:
+                continue
+            meta = metadata[idx].copy()
+            meta["score"] = float(score)
+            out.append(meta)
+        return out

-    raw_results = []
-    for score, idx in zip(scores[0], indices[0]):
-        if idx < 0:
-            continue
-        if float(score) < _MIN_SCORE_CPAM:
-            continue
-        meta = metadata[idx].copy()
-        meta["score"] = float(score)
-        raw_results.append(meta)
+    raw_proc = _search_one(proc, fetch_mult=3)
+    raw_ref = _search_one(ref, fetch_mult=3)
+
+    # Filtrer clairement :
+    # - proc : guide_methodo + uploads proc:
+    raw_proc = [r for r in raw_proc if r.get("document") == "guide_methodo" or str(r.get("document", "")).startswith("proc:")]
+    # - ref : CIM-10 + index alpha + uploads ref:
+    raw_ref = [r for r in raw_ref if r.get("document") in ("cim10", "cim10_alpha") or str(r.get("document", "")).startswith("ref:")]
+
+    raw_results = raw_proc + raw_ref

    # Dédupliquer par code CIM-10 (garder meilleur score par code)
    seen_codes: dict[str, dict] = {}
@@ -281,8 +313,11 @@ def search_similar_cpam(query: str, top_k: int = 8) -> list[dict]:
    reranked = _rerank(query, deduped, top_k=len(deduped))

    # Prioriser le Guide Méthodologique (min 3 résultats)
-    guide_results = [r for r in reranked if r["document"] == "guide_methodo"]
-    other_results = [r for r in reranked if r["document"] != "guide_methodo"]
+    guide_results = [r for r in reranked if r.get("document") == "guide_methodo" or str(r.get("document", "")).startswith("proc:")]
+    other_results = [
+        r for r in reranked
+        if not (r.get("document") == "guide_methodo" or str(r.get("document", "")).startswith("proc:"))
+    ]

    min_guide = min(3, len(guide_results))
    final = guide_results[:min_guide]
@@ -357,107 +392,55 @@ def _format_contexte(contexte: dict) -> str:
    return "\n".join(lines) if lines else "Non précisé"


-def _build_prompt(texte: str, sources: list[dict], contexte: dict, est_dp: bool = True) -> str:
-    """Construit le prompt expert DIM avec raisonnement structuré."""
+def _format_sources(sources: list[dict]) -> str:
+    """Formate les sources RAG pour injection dans un prompt."""
    sources_text = ""
    for i, src in enumerate(sources, 1):
-        doc_name = {
-            "cim10": "CIM-10 FR 2026",
-            "cim10_alpha": "CIM-10 Index Alphabétique 2026",
-            "guide_methodo": "Guide Méthodologique MCO 2026",
-            "ccam": "CCAM PMSI V4 2025",
-        }.get(src["document"], src["document"])
+        doc_raw = str(src.get("document", ""))
+        if doc_raw.startswith("ref:"):
+            doc_name = f"Référentiel uploadé : {doc_raw[4:]}"
+        elif doc_raw.startswith("proc:"):
+            doc_name = f"Procédure uploadée : {doc_raw[5:]}"
+        else:
+            doc_name = {
+                "cim10": "CIM-10 FR 2026",
+                "cim10_alpha": "CIM-10 Index Alphabétique 2026",
+                "guide_methodo": "Guide Méthodologique MCO 2026",
+                "ccam": "CCAM PMSI V4 2025",
+            }.get(doc_raw, doc_raw)

        code_info = f" (code: {src['code']})" if src.get("code") else ""
        page_info = f" [page {src['page']}]" if src.get("page") else ""

        sources_text += f"--- Source {i}: {doc_name}{code_info}{page_info} ---\n"
        sources_text += (src.get("extrait", "")[:800]) + "\n\n"
+    return sources_text

+
+def _build_prompt(texte: str, sources: list[dict], contexte: dict, est_dp: bool = True) -> str:
+    """Construit le prompt expert DIM avec raisonnement structuré."""
    type_diag = "DP (diagnostic principal)" if est_dp else "DAS (diagnostic associé significatif)"
    ctx_str = format_enriched_context(contexte)
+    sources_text = _format_sources(sources)

-    return f"""Tu es un médecin DIM (Département d'Information Médicale) expert en codage PMSI.
-Tu dois coder le diagnostic suivant en respectant STRICTEMENT les règles de l'ATIH.
-
-RÈGLES IMPÉRATIVES :
- Le code doit provenir UNIQUEMENT des sources CIM-10 fournies
- Distingue la DESCRIPTION CLINIQUE (ce que le médecin écrit) de la LOGIQUE DE CODAGE (ce que l'ATIH impose)
- Privilégie le code le plus SPÉCIFIQUE disponible (4e ou 5e caractère)
- Vérifie les notes d'inclusion/exclusion de chaque code candidat
- Si le diagnostic est un DP, il doit refléter le motif principal de prise en charge du séjour
- Si c'est un DAS, il doit avoir mobilisé des ressources supplémentaires pendant le séjour
- EXCLUSION SYMPTÔME : Si le diagnostic est un symptôme (R00-R99) et qu'un diagnostic précis (Chapitres I-XIV, A00-N99) expliquant ce symptôme est présent, le symptôme ne doit PAS être codé comme DAS
-
-DIAGNOSTIC À CODER : "{texte}"
-TYPE : {type_diag}
-
-CONTEXTE CLINIQUE :
-{ctx_str}
-
-SOURCES CIM-10 :
-{sources_text}
-Réponds UNIQUEMENT avec un objet JSON au format suivant, sans aucun texte avant ou après :
-{{
-  "analyse_clinique": "que signifie ce diagnostic sur le plan médical",
-  "codes_candidats": "quels codes CIM-10 des sources sont compatibles",
-  "discrimination": "pourquoi choisir ce code plutôt qu'un autre (inclusions/exclusions, spécificité)",
-  "regle_pmsi": "conformité aux règles PMSI pour un {type_diag} (guide méthodologique)",
-  "code": "X99.9",
-  "confidence": "high ou medium ou low",
-  "justification": "explication courte en français",
-  "preuves_cliniques": [
-    {{"type": "biologie|imagerie|traitement|acte|clinique", "element": "élément concret du dossier", "interpretation": "signification clinique justifiant le code"}}
-  ]
-}}"""
+    return CODING_CIM10.format(
+        texte=texte,
+        type_diag=type_diag,
+        ctx_str=ctx_str,
+        sources_text=sources_text,
+    )


 def _build_prompt_ccam(texte: str, sources: list[dict], contexte: dict) -> str:
    """Construit le prompt expert DIM pour le codage CCAM avec raisonnement structuré."""
-    sources_text = ""
-    for i, src in enumerate(sources, 1):
-        doc_name = {
-            "cim10": "CIM-10 FR 2026",
-            "cim10_alpha": "CIM-10 Index Alphabétique 2026",
-            "guide_methodo": "Guide Méthodologique MCO 2026",
-            "ccam": "CCAM PMSI V4 2025",
-        }.get(src["document"], src["document"])
-
-        code_info = f" (code: {src['code']})" if src.get("code") else ""
-        page_info = f" [page {src['page']}]" if src.get("page") else ""
-
-        sources_text += f"--- Source {i}: {doc_name}{code_info}{page_info} ---\n"
-        sources_text += (src.get("extrait", "")[:800]) + "\n\n"
-
    ctx_str = format_enriched_context(contexte)
+    sources_text = _format_sources(sources)

-    return f"""Tu es un médecin DIM (Département d'Information Médicale) expert en codage CCAM PMSI.
-Tu dois coder l'acte chirurgical/médical suivant en respectant STRICTEMENT la nomenclature CCAM.
-
-RÈGLES IMPÉRATIVES :
- Le code doit provenir UNIQUEMENT des sources CCAM fournies
- Un code CCAM est composé de 4 lettres + 3 chiffres (ex: HMFC004)
- Vérifie l'activité (1=acte technique, 4=anesthésie) et le regroupement
- Tiens compte du tarif secteur 1 pour valider la cohérence
- Si plusieurs codes sont possibles, choisis le plus spécifique à l'acte décrit
- En cas de doute, indique confidence "low" plutôt que de proposer un code inadapté
-
-ACTE À CODER : "{texte}"
-
-CONTEXTE CLINIQUE :
-{ctx_str}
-
-SOURCES CCAM :
-{sources_text}
-Réponds UNIQUEMENT avec un objet JSON au format suivant, sans aucun texte avant ou après :
-{{
-  "analyse_acte": "que décrit cet acte sur le plan technique/chirurgical",
-  "codes_candidats": "quels codes CCAM des sources sont compatibles",
-  "discrimination": "pourquoi choisir ce code plutôt qu'un autre (activité, regroupement, tarif)",
-  "code": "ABCD123",
-  "confidence": "high ou medium ou low",
-  "justification": "explication courte en français"
-}}"""
+    return CODING_CCAM.format(
+        texte=texte,
+        ctx_str=ctx_str,
+        sources_text=sources_text,
+    )


 def _parse_ollama_response(raw: str) -> dict | None:
@@ -481,7 +464,7 @@ def _parse_ollama_response(raw: str) -> dict | None:

 def _call_ollama(prompt: str) -> dict | None:
    """Appelle Ollama (mode JSON) et parse la réponse avec reconstitution du raisonnement."""
-    result = call_ollama(prompt, temperature=0.1, max_tokens=2500)
+    result = call_ollama(prompt, temperature=0.1, max_tokens=2500, role="coding")
    if result is None:
        return None
    # Reconstituer le raisonnement structuré
@@ -669,42 +652,12 @@ def _build_prompt_das_extraction(text: str, contexte: dict, existing_das: list[s
    ctx_str = format_enriched_context(contexte)
    existing_str = "\n".join(f"- {d}" for d in existing_das) if existing_das else "Aucun"

-    return f"""Tu es un médecin DIM (Département d'Information Médicale) expert en codage PMSI.
-Analyse le texte médical suivant et identifie les diagnostics associés significatifs (DAS) qui n'ont PAS encore été codés.
-
-RÈGLES IMPÉRATIVES :
- Un DAS doit avoir mobilisé des ressources supplémentaires pendant le séjour
- Ne PAS proposer de doublons avec les DAS déjà codés ci-dessous
- Ne PAS proposer le diagnostic principal comme DAS
- Ne PAS coder les symptômes (R00-R99) si un diagnostic précis les explique
- Ne PAS coder les antécédents non pertinents pour le séjour
- Privilégie les codes CIM-10 les plus SPÉCIFIQUES (4e ou 5e caractère)
- Ne propose que des diagnostics CLAIREMENT mentionnés dans le texte
- ATTENTION aux valeurs biologiques : ne code PAS un diagnostic si les valeurs sont dans les normes indiquées entre crochets [N: min-max]. Exemple : Créatinine 76 [N: 50-120] = NORMAL, pas d'insuffisance rénale.
-
-DIAGNOSTIC PRINCIPAL : {dp_texte or "Non identifié"}
-
-DAS DÉJÀ CODÉS :
-{existing_str}
-
-CONTEXTE CLINIQUE :
-{ctx_str}
-
-TEXTE MÉDICAL :
-{text[:4000]}
-
-Réponds UNIQUEMENT avec un objet JSON au format suivant, sans aucun texte avant ou après :
-{{
-  "diagnostics_supplementaires": [
-    {{
-      "texte": "description du diagnostic",
-      "code_cim10": "X99.9",
-      "justification": "pourquoi ce DAS est pertinent pour le séjour"
-    }}
-  ]
-}}
-
-Si aucun DAS supplémentaire n'est pertinent, retourne : {{"diagnostics_supplementaires": []}}"""
+    return DAS_EXTRACTION.format(
+        dp_texte=dp_texte or "Non identifié",
+        existing_str=existing_str,
+        ctx_str=ctx_str,
+        text_medical=text[:4000],
+    )


 def extract_das_llm(
@@ -741,7 +694,7 @@ def extract_das_llm(

    # Construire le prompt et appeler Ollama
    prompt = _build_prompt_das_extraction(text, contexte, existing_das, dp_texte)
-    result = call_ollama(prompt, temperature=0.1, max_tokens=2000)
+    result = call_ollama(prompt, temperature=0.1, max_tokens=2000, role="coding")

    if result is None:
        logger.warning("Extraction DAS LLM : Ollama non disponible")
@@ -766,7 +719,7 @@ def enrich_dossier(dossier: DossierMedical) -> None:
    Utilise un cache persistant et parallélise les appels Ollama
    pour les DAS et actes CCAM (max_workers = OLLAMA_MAX_PARALLEL).
    """
-    cache = OllamaCache(OLLAMA_CACHE_PATH, OLLAMA_MODEL)
+    cache = OllamaCache(OLLAMA_CACHE_PATH, get_model("coding"))

    contexte = build_enriched_context(dossier)