fix: fallback CPU embedding + protection CPAM contre crash OOM

- SentenceTransformer : fallback CPU si CUDA OOM (Ollama peut occuper la VRAM) - Bloc CPAM dans main.py : try/except pour éviter crash fatal du pipeline Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-13 06:11:38 +01:00
parent e90450903e
commit 0d3cb83f12
2 changed files with 29 additions and 15 deletions
--- a/src/main.py
+++ b/src/main.py
@@ -355,18 +355,21 @@ def main(input_path: str | None = None) -> None:

        # Contrôle CPAM : enrichir le dossier principal (fusionné ou dernier)
        if cpam_data and subdir:
-            from .control.cpam_parser import match_dossier_ogc
-            controles = match_dossier_ogc(subdir, cpam_data)
-            if controles:
-                from .control.cpam_response import generate_cpam_response
-                target = merged if merged else (group_dossiers[-1] if group_dossiers else None)
-                if target:
-                    logger.info("  CPAM : %d contrôle(s) pour %s", len(controles), subdir)
-                    for ctrl in controles:
-                        text, sources = generate_cpam_response(target, ctrl)
-                        ctrl.contre_argumentation = text
-                        ctrl.sources_reponse = sources
-                    target.controles_cpam = controles
+            try:
+                from .control.cpam_parser import match_dossier_ogc
+                controles = match_dossier_ogc(subdir, cpam_data)
+                if controles:
+                    from .control.cpam_response import generate_cpam_response
+                    target = merged if merged else (group_dossiers[-1] if group_dossiers else None)
+                    if target:
+                        logger.info("  CPAM : %d contrôle(s) pour %s", len(controles), subdir)
+                        for ctrl in controles:
+                            text, sources = generate_cpam_response(target, ctrl)
+                            ctrl.contre_argumentation = text
+                            ctrl.sources_reponse = sources
+                        target.controles_cpam = controles
+            except Exception:
+                logger.exception("Erreur CPAM pour %s", subdir)

        # Écrire le dossier fusionné (après enrichissement CPAM éventuel)
        if merged is not None and subdir:
--- a/src/medical/rag_search.py
+++ b/src/medical/rag_search.py
@@ -25,14 +25,25 @@ _MIN_SCORE = 0.3


 def _get_embed_model():
-    """Charge le modèle d'embedding (singleton)."""
+    """Charge le modèle d'embedding (singleton).
+
+    Tente CUDA d'abord, fallback CPU si OOM (Ollama peut occuper la VRAM).
+    """
    global _embed_model
    if _embed_model is None:
        from sentence_transformers import SentenceTransformer
-        logger.info("Chargement du modèle d'embedding pour la recherche...")
        import torch
        _device = "cuda" if torch.cuda.is_available() else "cpu"
-        _embed_model = SentenceTransformer("dangvantuan/sentence-camembert-large", device=_device)
+        try:
+            logger.info("Chargement du modèle d'embedding (%s)...", _device)
+            _embed_model = SentenceTransformer("dangvantuan/sentence-camembert-large", device=_device)
+        except torch.OutOfMemoryError:
+            if _device == "cuda":
+                logger.warning("CUDA OOM pour l'embedding — fallback CPU")
+                torch.cuda.empty_cache()
+                _embed_model = SentenceTransformer("dangvantuan/sentence-camembert-large", device="cpu")
+            else:
+                raise
        _embed_model.max_seq_length = 512
    return _embed_model