Aivanov_scan_ogc

10 Commits 1 Branch 0 Tags

Author	SHA1	Message	Date
Dom	7d45018139	feat(extract): normaliser ghs_injustifie en 0/1 (P2) Qwen renvoie typiquement le libellé complet `0 SE 1 2 3 4 ATU FFM FSD` dans le champ ghs_injustifie alors qu'une seule valeur 0/1 est attendue. Ajout de `pipeline.checkboxes.parse_ghs_injustifie` qui extrait le premier chiffre 0/1 via regex, ou "" si illisible. Post-traitement appliqué à chaque extraction recueil et aux 18 JSONs V2 existants (10 fichiers corrigés en place — les 8 autres avaient déjà ghs_injustifie absent ou vide). Note sur les 7 cases SE1-4/ATU/FFM/FSD : zones trop petites pour être calibrées à l'œil et aucun cas positif (`ghs_injustifie=1`) dans l'échantillon 2018 pour valider visuellement. La détection est en placeholder, à recalibrer sur un cas positif réel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:54:16 +02:00
Dom	7dc3eba1fc	fix(persist): corriger tag ocr_model et pipeline_version dans _meta Auparavant le JSON de sortie étiquetait systématiquement `ocr_model: "zai-org/GLM-OCR"` et `pipeline_version: "v1"` alors que le pipeline avait été basculé sur Qwen2.5-VL-3B en V2. `_meta` lit désormais `MODEL_PATH` depuis `pipeline.ocr_qwen` pour garantir la cohérence entre le modèle effectivement utilisé et la trace dans le fichier. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:54:01 +02:00
Dom	2ceb3c4916	docs: README avec installation Linux/macOS et référence des répertoires Guide de démarrage pour un nouveau collaborateur : - Prérequis système (Python 3.10+, poppler, GPU ≥ 8 Go VRAM) - Installation (Debian/Ubuntu et macOS) et venv Python - Commandes principales : pipeline.cli, ui_overlay Streamlit, annotate_validation, tests, reconstruction ATIH - Structure des répertoires (ce qui est dans git vs ignoré) - Schéma d'architecture et format du JSON produit - État actuel chiffré + limites connues + pistes suite Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:11:49 +02:00
Dom	71f91d9c31	chore(scratch): archives des scripts exploratoires de choix d'OCR Conservés comme trace de recherche — non documentés, non factorisés, ne pas dépendre de ce dossier depuis le code de production. - test_glm_ocr.py : benchmark GLM-OCR 0.9B (écarté pour faiblesse sur dp_libelle, praticien et colonne Recodage). - test_got_ocr.py : tests GOT-OCR2.0 (échec sur tableaux denses à en-têtes verticaux). - test_paddle.py : tentative PaddleOCR (incompatible avec paddlepaddle installé). - test_surya.py : tentative Surya (incompatible transformers 5.6). - test_qwen_vl.py : Qwen2.5-VL-7B (excellent mais 220s/page, écarté faute de VRAM et vitesse). - test_qwen_vl_3b.py : Qwen2.5-VL-3B (retenu, 3s/page, qualité > GLM-OCR sur les champs critiques). - test_prompt_ab.py : A/B test prompts Accord/Désaccord. - test_prompt_crop.py : prompts + crop ciblé checkboxes (échec → module pipeline/checkboxes.py). - test_prompt_recueil_.py : prompts page recueil (consignes verbeuses dégradent la sortie, cf. discussion). - README.md : index du dossier. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:44 +02:00
Dom	b6dd9ff1df	chore(bench): résultats V2 et rapports de benchmarking Snapshot des 18 JSONs produits par le pipeline V2 (Qwen2.5-VL-3B + checkboxes densité + validation ATIH), utiles au collaborateur comme référence de ce que la chaîne actuelle produit. Rapports : - bench_v2_report.md : comparaison V2 vs legacy docTR+VLM (couverture, divergences, régressions notables sur codage_reco et praticien). - validation_report.md : résumé de la validation ATIH sur les 18 JSONs (131/149 → 140/149 codes valides après fix suffixes `*` et `+N`, 0 incohérence GHM↔GHS, 8 suggestions de correction OCR). Script de comparaison : - bench_v11_vs_legacy.py : tableau d'accord champ par champ entre un run du pipeline (output/v2/) et les JSONs legacy (output/). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:30 +02:00
Dom	1f75670770	feat(ui): interface Streamlit de review & annotation Ajoute pipeline/ui_overlay.py : interface web pour inspecter les extractions et construire un gold set annoté manuellement. Fonctionnalités : - Un onglet par type de page détectée dans le dossier (recueil, concertation 1/2, concertation 2/2, preuves…). - Image PDF à gauche + champs éditables à droite, spécifiques au type de page (codes CIM/CCAM pour recueil, GHS + décision pour concertation 2, argumentaire pour concertation 1…). - Badges de validation ATIH à côté de chaque code : 🟢 valide (libellé officiel au survol) 🟡 invalide, suggestion Levenshtein≤1 disponible 🔴 invalide, pas de suggestion - Comparateur au gold set : ✓/✗/∅/— selon divergence. - Sidebar : sélecteur dossier, métriques ATIH, cohérence GHM↔GHS. - Expanders JSON pipeline / JSON gold / OCR raw pour debug. Sauvegarde des annotations dans gold/<nom>.json au même format que les JSONs pipeline, ce qui permettra de mesurer objectivement la qualité de futures versions du pipeline (champ par champ vs gold). Lancement : `streamlit run pipeline/ui_overlay.py` depuis la racine. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:18 +02:00
Dom	6df590ae95	feat(referentials): validation ATIH 2018 des codes médicaux Ajoute une couche de validation post-extraction contre les référentiels officiels de l'ATIH (Agence Technique de l'Information sur l'Hospitalisation) pour 2018. Zéro tolérance sur les codes T2A : un code invalide est flaggé, et une correction par plus proche voisin (Levenshtein ≤ 1) est proposée. Contenu : - pipeline/referentials.py : API publique is_valid_{cim10,ccam,ghm,ghs}, get_cim10_libelle, nearest_cim10, ghm_to_ghs. CLI --build/--test/--stats. - pipeline/validation.py : annote un JSON d'extraction avec un bloc `_validation` par page (codes valides/invalides + suggestions + cross- checks GHM↔GHS). - referentials/sources/ : données brutes ATIH publiques (CIM-10 ClaML 2019 substitut, CCAM v5 2018, GHM v2018, tarifs fév. 2018). - referentials/atih_2018.sqlite : base SQLite prête à l'emploi (11 623 CIM-10 · 8 147 CCAM · 2 593 GHM · 5 329 couples GHM→GHS). - tests/test_referentials.py : 11 tests unitaires (11/11 passent). - annotate_validation.py : script qui annote tous les JSONs V2 en place et produit validation_report.md. Note CIM-10 : la version 2018 ATIH n'est publiée qu'en PDF, ClaML 2019 est utilisée en substitut (écart connu ≈ 60 codes / 11 600). Gestion des suffixes PMSI : `*` (CMA exclue par le DP) et `+N` (extension PMSI) sont strippés avant validation, le code racine seul est comparé au référentiel. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:06:01 +02:00
Dom	ed4d9bd765	feat(pipeline): extraction OGC via Qwen2.5-VL-3B Pipeline modulaire remplaçant le monolithe extract_ogc.py (conservé en legacy pour comparaison). Modules : - ingest.py : PDF → PNG 300dpi avec cache par SHA256 - ocr_qwen.py : wrapper singleton Qwen2.5-VL-3B (bfloat16, ~7 Go VRAM) - ocr_glm.py : wrapper GLM-OCR 0.9B (alternatif, conservé) - classify.py : détection type de page + routing par index standard (ordre des 6 pages OGC → -50% d'appels OCR) - prompts.py : JSON schemas par type (recueil, concertation 1/2/2/2, preuves) + mots-clés de classification - checkboxes.py : détection Accord/Désaccord par densité de pixels (inner-frac 0.35, 17/17 corrects sur échantillon vérifié ; GLM-OCR et Qwen échouent sur les checkboxes, cf. scratch/test_prompt_crop_v2.py) - extract.py : orchestration 1 dossier (ingest → classify → OCR → parse JSON tolérant aux boucles + validation ATIH) - persist.py : sauvegarde JSON + metadata (pipeline_version, ocr_model, timestamp) - cli.py : `python -m pipeline.cli <pdf\|dir>` Temps mesuré : ~35s/dossier (6 pages) sur RTX 5070. Qwen2.5-VL-3B retenu après comparaison avec GLM-OCR 0.9B, GOT-OCR2.0, Surya, PaddleOCR (cf. scratch/). Il extrait correctement dp_libelle, praticien_conseil et les 4 GHM/GHS là où les autres échouent. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:05:40 +02:00
Dom	ddebd8dfbf	chore(gitignore): exclure venvs de test, cache images et artefacts - .venv_glm/, .venv_got/ (venvs créés pendant le choix d'OCR) - .cache/ (images PDF→PNG intermédiaires, reconstructibles) - test__out/ (résultats bruts des tests exploratoires) - test_glm_.md, test_got_*.md (stdout redirigés) - .DS_Store, Thumbs.db Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 15:05:20 +02:00
Dom	0c0f62fbf1	feat: extraction OGC et génération de PDFs propres Pipeline complet pour extraire les données structurées des fiches OGC scannées (recueil praticien conseil + concertation) et générer des PDFs propres et lisibles à partir des JSON extraits. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-03-26 10:12:21 +01:00