Aivanov_scan_ogc

Author	SHA1	Message	Date
Dom	7d45018139	feat(extract): normaliser ghs_injustifie en 0/1 (P2) Qwen renvoie typiquement le libellé complet `0 SE 1 2 3 4 ATU FFM FSD` dans le champ ghs_injustifie alors qu'une seule valeur 0/1 est attendue. Ajout de `pipeline.checkboxes.parse_ghs_injustifie` qui extrait le premier chiffre 0/1 via regex, ou "" si illisible. Post-traitement appliqué à chaque extraction recueil et aux 18 JSONs V2 existants (10 fichiers corrigés en place — les 8 autres avaient déjà ghs_injustifie absent ou vide). Note sur les 7 cases SE1-4/ATU/FFM/FSD : zones trop petites pour être calibrées à l'œil et aucun cas positif (`ghs_injustifie=1`) dans l'échantillon 2018 pour valider visuellement. La détection est en placeholder, à recalibrer sur un cas positif réel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:54:16 +02:00
Dom	7dc3eba1fc	fix(persist): corriger tag ocr_model et pipeline_version dans _meta Auparavant le JSON de sortie étiquetait systématiquement `ocr_model: "zai-org/GLM-OCR"` et `pipeline_version: "v1"` alors que le pipeline avait été basculé sur Qwen2.5-VL-3B en V2. `_meta` lit désormais `MODEL_PATH` depuis `pipeline.ocr_qwen` pour garantir la cohérence entre le modèle effectivement utilisé et la trace dans le fichier. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:54:01 +02:00
Dom	1f75670770	feat(ui): interface Streamlit de review & annotation Ajoute pipeline/ui_overlay.py : interface web pour inspecter les extractions et construire un gold set annoté manuellement. Fonctionnalités : - Un onglet par type de page détectée dans le dossier (recueil, concertation 1/2, concertation 2/2, preuves…). - Image PDF à gauche + champs éditables à droite, spécifiques au type de page (codes CIM/CCAM pour recueil, GHS + décision pour concertation 2, argumentaire pour concertation 1…). - Badges de validation ATIH à côté de chaque code : 🟢 valide (libellé officiel au survol) 🟡 invalide, suggestion Levenshtein≤1 disponible 🔴 invalide, pas de suggestion - Comparateur au gold set : ✓/✗/∅/— selon divergence. - Sidebar : sélecteur dossier, métriques ATIH, cohérence GHM↔GHS. - Expanders JSON pipeline / JSON gold / OCR raw pour debug. Sauvegarde des annotations dans gold/<nom>.json au même format que les JSONs pipeline, ce qui permettra de mesurer objectivement la qualité de futures versions du pipeline (champ par champ vs gold). Lancement : `streamlit run pipeline/ui_overlay.py` depuis la racine. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:18 +02:00
Dom	6df590ae95	feat(referentials): validation ATIH 2018 des codes médicaux Ajoute une couche de validation post-extraction contre les référentiels officiels de l'ATIH (Agence Technique de l'Information sur l'Hospitalisation) pour 2018. Zéro tolérance sur les codes T2A : un code invalide est flaggé, et une correction par plus proche voisin (Levenshtein ≤ 1) est proposée. Contenu : - pipeline/referentials.py : API publique is_valid_{cim10,ccam,ghm,ghs}, get_cim10_libelle, nearest_cim10, ghm_to_ghs. CLI --build/--test/--stats. - pipeline/validation.py : annote un JSON d'extraction avec un bloc `_validation` par page (codes valides/invalides + suggestions + cross- checks GHM↔GHS). - referentials/sources/ : données brutes ATIH publiques (CIM-10 ClaML 2019 substitut, CCAM v5 2018, GHM v2018, tarifs fév. 2018). - referentials/atih_2018.sqlite : base SQLite prête à l'emploi (11 623 CIM-10 · 8 147 CCAM · 2 593 GHM · 5 329 couples GHM→GHS). - tests/test_referentials.py : 11 tests unitaires (11/11 passent). - annotate_validation.py : script qui annote tous les JSONs V2 en place et produit validation_report.md. Note CIM-10 : la version 2018 ATIH n'est publiée qu'en PDF, ClaML 2019 est utilisée en substitut (écart connu ≈ 60 codes / 11 600). Gestion des suffixes PMSI : `*` (CMA exclue par le DP) et `+N` (extension PMSI) sont strippés avant validation, le code racine seul est comparé au référentiel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:01 +02:00
Dom	ed4d9bd765	feat(pipeline): extraction OGC via Qwen2.5-VL-3B Pipeline modulaire remplaçant le monolithe extract_ogc.py (conservé en legacy pour comparaison). Modules : - ingest.py : PDF → PNG 300dpi avec cache par SHA256 - ocr_qwen.py : wrapper singleton Qwen2.5-VL-3B (bfloat16, ~7 Go VRAM) - ocr_glm.py : wrapper GLM-OCR 0.9B (alternatif, conservé) - classify.py : détection type de page + routing par index standard (ordre des 6 pages OGC → -50% d'appels OCR) - prompts.py : JSON schemas par type (recueil, concertation 1/2/2/2, preuves) + mots-clés de classification - checkboxes.py : détection Accord/Désaccord par densité de pixels (inner-frac 0.35, 17/17 corrects sur échantillon vérifié ; GLM-OCR et Qwen échouent sur les checkboxes, cf. scratch/test_prompt_crop_v2.py) - extract.py : orchestration 1 dossier (ingest → classify → OCR → parse JSON tolérant aux boucles + validation ATIH) - persist.py : sauvegarde JSON + metadata (pipeline_version, ocr_model, timestamp) - cli.py : `python -m pipeline.cli <pdf\|dir>` Temps mesuré : ~35s/dossier (6 pages) sur RTX 5070. Qwen2.5-VL-3B retenu après comparaison avec GLM-OCR 0.9B, GOT-OCR2.0, Surya, PaddleOCR (cf. scratch/). Il extrait correctement dp_libelle, praticien_conseil et les 4 GHM/GHS là où les autres échouent. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:05:40 +02:00

5 Commits