feat: pass LLM hybride pour DAS + interface admin référentiels RAG

Chantier 1 — Extraction DAS par LLM : - Nouveau prompt expert DIM dans rag_search.py (extract_das_llm) - Phase 4 dans cim10_extractor.py : détection DAS supplémentaires avant enrichissement RAG - Cache persistant (clé hash du texte), validation CIM-10, déduplication - Activé uniquement avec use_rag=True (--no-rag le désactive) Chantier 2 — Admin référentiels : - Config : REFERENTIELS_DIR, UPLOAD_MAX_SIZE_MB, ALLOWED_EXTENSIONS - Chunking générique (PDF/CSV/Excel/TXT) + ajout incrémental FAISS dans rag_index.py - ReferentielManager CRUD dans viewer/referentiels.py - 5 routes Flask (listing, upload, indexation, suppression, rebuild) - Template admin avec tableau interactif + lien sidebar Fix : if cache → if cache is not None (OllamaCache vide évaluait à False) 410 tests passent (27 nouveaux, 0 régression). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-12 23:12:39 +01:00
parent bf92a0ce3e
commit f44216b95b
10 changed files with 1197 additions and 6 deletions
--- a/src/medical/rag_search.py
+++ b/src/medical/rag_search.py
@@ -473,6 +473,101 @@ def enrich_acte(acte: ActeCCAM, contexte: dict, cache: OllamaCache | None = None
        logger.info("Ollama non disponible — sources FAISS CCAM conservées sans justification LLM")


+def _build_prompt_das_extraction(text: str, contexte: dict, existing_das: list[str], dp_texte: str) -> str:
+    """Construit le prompt pour l'extraction LLM de DAS supplémentaires."""
+    ctx_str = _format_contexte(contexte)
+    existing_str = "\n".join(f"- {d}" for d in existing_das) if existing_das else "Aucun"
+
+    return f"""Tu es un médecin DIM (Département d'Information Médicale) expert en codage PMSI.
+Analyse le texte médical suivant et identifie les diagnostics associés significatifs (DAS) qui n'ont PAS encore été codés.
+
+RÈGLES IMPÉRATIVES :
+- Un DAS doit avoir mobilisé des ressources supplémentaires pendant le séjour
+- Ne PAS proposer de doublons avec les DAS déjà codés ci-dessous
+- Ne PAS proposer le diagnostic principal comme DAS
+- Ne PAS coder les symptômes (R00-R99) si un diagnostic précis les explique
+- Ne PAS coder les antécédents non pertinents pour le séjour
+- Privilégie les codes CIM-10 les plus SPÉCIFIQUES (4e ou 5e caractère)
+- Ne propose que des diagnostics CLAIREMENT mentionnés dans le texte
+
+DIAGNOSTIC PRINCIPAL : {dp_texte or "Non identifié"}
+
+DAS DÉJÀ CODÉS :
+{existing_str}
+
+CONTEXTE CLINIQUE :
+{ctx_str}
+
+TEXTE MÉDICAL :
+{text[:4000]}
+
+Réponds UNIQUEMENT avec un objet JSON au format suivant, sans aucun texte avant ou après :
+{{
+  "diagnostics_supplementaires": [
+    {{
+      "texte": "description du diagnostic",
+      "code_cim10": "X99.9",
+      "justification": "pourquoi ce DAS est pertinent pour le séjour"
+    }}
+  ]
+}}
+
+Si aucun DAS supplémentaire n'est pertinent, retourne : {{"diagnostics_supplementaires": []}}"""
+
+
+def extract_das_llm(
+    text: str,
+    contexte: dict,
+    existing_das: list[str],
+    dp_texte: str,
+    cache: OllamaCache | None = None,
+) -> list[dict]:
+    """Extrait des DAS supplémentaires via un pass LLM.
+
+    Args:
+        text: Texte médical complet.
+        contexte: Contexte patient (sexe, age, etc.).
+        existing_das: Liste des DAS déjà codés (texte + code).
+        dp_texte: Texte du diagnostic principal.
+        cache: Cache Ollama optionnel.
+
+    Returns:
+        Liste de dicts {texte, code_cim10, justification} pour les DAS détectés.
+    """
+    import hashlib
+
+    # Clé de cache basée sur le hash du texte
+    text_hash = hashlib.md5(text[:4000].encode()).hexdigest()[:16]
+    cache_key_text = f"das_extract::{text_hash}"
+
+    # Vérifier le cache
+    if cache is not None:
+        cached = cache.get(cache_key_text, "das_llm")
+        if cached is not None:
+            logger.info("Cache hit pour extraction DAS LLM")
+            return cached.get("diagnostics_supplementaires", [])
+
+    # Construire le prompt et appeler Ollama
+    prompt = _build_prompt_das_extraction(text, contexte, existing_das, dp_texte)
+    result = call_ollama(prompt, temperature=0.1, max_tokens=2000)
+
+    if result is None:
+        logger.warning("Extraction DAS LLM : Ollama non disponible")
+        return []
+
+    das_list = result.get("diagnostics_supplementaires", [])
+    if not isinstance(das_list, list):
+        logger.warning("Extraction DAS LLM : format inattendu")
+        return []
+
+    # Stocker dans le cache
+    if cache is not None:
+        cache.put(cache_key_text, "das_llm", result)
+
+    logger.info("Extraction DAS LLM : %d diagnostics supplémentaires détectés", len(das_list))
+    return das_list
+
+
 def enrich_dossier(dossier: DossierMedical) -> None:
    """Enrichit le DP et tous les DAS d'un dossier via le RAG.