From 7dc3eba1fcd5810960889626a485b0a738f633f0 Mon Sep 17 00:00:00 2001 From: Dom Date: Fri, 24 Apr 2026 15:54:01 +0200 Subject: [PATCH] fix(persist): corriger tag ocr_model et pipeline_version dans _meta MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Auparavant le JSON de sortie étiquetait systématiquement `ocr_model: "zai-org/GLM-OCR"` et `pipeline_version: "v1"` alors que le pipeline avait été basculé sur Qwen2.5-VL-3B en V2. `_meta` lit désormais `MODEL_PATH` depuis `pipeline.ocr_qwen` pour garantir la cohérence entre le modèle effectivement utilisé et la trace dans le fichier. Co-Authored-By: Claude Opus 4.7 (1M context) --- pipeline/persist.py | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/pipeline/persist.py b/pipeline/persist.py index c9904c3..511a2a6 100644 --- a/pipeline/persist.py +++ b/pipeline/persist.py @@ -9,9 +9,10 @@ DEFAULT_OUT = Path("output/v2") def save_result(result: dict, out_dir: Path | str = DEFAULT_OUT) -> Path: out_dir = Path(out_dir) out_dir.mkdir(parents=True, exist_ok=True) + from .ocr_qwen import MODEL_PATH as OCR_MODEL_ID result["_meta"] = { - "pipeline_version": "v1", - "ocr_model": "zai-org/GLM-OCR", + "pipeline_version": "v2", + "ocr_model": OCR_MODEL_ID, "generated_at": datetime.now(timezone.utc).isoformat(timespec="seconds"), } out_path = out_dir / f"{result['fichier']}.json"