feat(extract): second passage VLM sur crop colonne Recodage (P0)

Qwen ne lit systématiquement que la colonne de gauche du tableau Codage quand on lui donne la page recueil entière : la colonne droite (Recodage) a 27% de couverture en V2.0 avec 100% de validité — une régression majeure puisque c'est le cœur métier du contrôle T2A. Solution : après le passage principal, refaire une extraction dédiée sur un crop zonal de la seule colonne Recodage (y=0.330→0.490 pour exclure le bloc Actes adjacent). Prompt strict anti-hallucination ("beaucoup de lignes sont vides, n'invente rien"). Le résultat écrase partiellement `codage_reco` (DP/DR/DAS) dans le JSON principal. Classification Python par règle métier : - 1er code sans position → DP - 2e code sans position → DR (ignoré si == DP : Qwen duplique parfois) - codes avec position → DAS Filtre CIM-10 par regex en Python pour retirer les codes CCAM (actes) qui pourraient rester si le crop déborde. Ajout d'une env var `QWEN_MAX_PIXELS` (défaut 800) pour ajuster la consommation VRAM sur machines avec GPU partagé (test sur RTX 5070 avec rpa_vision_v3 en parallèle). Ajout de `torch.cuda.empty_cache()` après chaque inférence pour réduire la fragmentation VRAM sur exécutions longues. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-24 15:54:35 +02:00
parent 7d45018139
commit 3f2e2ee9f4
2 changed files with 43 additions and 2 deletions
--- a/pipeline/ocr_qwen.py
+++ b/pipeline/ocr_qwen.py
@@ -28,11 +28,15 @@ class QwenVLOCR:
    def _init_model(self):
        t0 = time.time()
        # max_pixels limite le nombre de patches visuels pour éviter l'OOM
-        # sur images 300 dpi (2481x3509). ~1.25M pixels = équilibre qualité/VRAM.
+        # sur images 300 dpi (2481x3509). ~800 patches = équilibre qualité/VRAM,
+        # tient confortablement dans ~5-6 Go même avec d'autres processus GPU
+        # en arrière-plan. Configurable via env var QWEN_MAX_PIXELS (en patches).
+        import os as _os
+        max_pixels = int(_os.environ.get("QWEN_MAX_PIXELS", 800)) * 28 * 28
        self.processor = AutoProcessor.from_pretrained(
            MODEL_PATH,
            min_pixels=256 * 28 * 28,
-            max_pixels=1280 * 28 * 28,
+            max_pixels=max_pixels,
        )
        self.model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
            MODEL_PATH,
@@ -67,4 +71,9 @@ class QwenVLOCR:
            generated_ids = self.model.generate(**inputs, max_new_tokens=max_new_tokens)
        out_ids = generated_ids[:, inputs.input_ids.shape[1]:]
        output = self.processor.batch_decode(out_ids, skip_special_tokens=True)[0]
+        # Libérer la VRAM allouée par l'inférence (utile quand d'autres
+        # processus tournent en parallèle sur le même GPU)
+        del inputs, generated_ids, out_ids
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
        return {"text": output.strip(), "elapsed_s": time.time() - t0}