Snapshot des 18 JSONs produits par le pipeline V2 (Qwen2.5-VL-3B +
checkboxes densité + validation ATIH), utiles au collaborateur comme
référence de ce que la chaîne actuelle produit.
Rapports :
- bench_v2_report.md : comparaison V2 vs legacy docTR+VLM
(couverture, divergences, régressions
notables sur codage_reco et praticien).
- validation_report.md : résumé de la validation ATIH sur les 18
JSONs (131/149 → 140/149 codes valides
après fix suffixes `*` et `+N`, 0
incohérence GHM↔GHS, 8 suggestions de
correction OCR).
Script de comparaison :
- bench_v11_vs_legacy.py : tableau d'accord champ par champ entre
un run du pipeline (output/v2/) et les
JSONs legacy (output/).
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
1.2 KiB
1.2 KiB
Rapport de validation ATIH — V2 (18 dossiers)
Couverture et validité par champ
| Champ | Total | Valid | Invalid | Vide | Validité codes renseignés |
|---|---|---|---|---|---|
ghm_etab |
18 | 17 | 1 | 0 | 94% |
ghs_etab |
18 | 17 | 1 | 0 | 94% |
ghm_reco |
18 | 17 | 1 | 0 | 94% |
ghs_reco |
18 | 17 | 1 | 0 | 94% |
codage_etab.dp |
18 | 17 | 1 | 0 | 94% |
codage_etab.dr |
18 | 11 | 3 | 4 | 79% |
codage_reco.dp |
18 | 5 | 0 | 13 | 100% |
codage_reco.dr |
18 | 5 | 1 | 12 | 83% |
codage_etab.das |
31 | 30 | 0 | 1 | 100% |
codage_reco.das |
5 | 4 | 0 | 1 | 100% |
Corrections OCR suggérées (Levenshtein ≤ 1)
Codes extraits invalides mais ressemblant à un code ATIH existant :
| Dossier | Champ | Code extrait | Suggestion |
|---|---|---|---|
| OGC 7 | codage_etab.dp |
TS10 |
T010 |
| OGC 20 | codage_etab.dr |
I022 |
A022 |
| OGC 20 | codage_reco.dr |
I022 |
A022 |
Incohérences GHM ↔ GHS détectées
✓ Aucune incohérence détectée sur les GHM/GHS extraits.
Synthèse
- 140/149 codes valides (94.0%)
- 3 suggestions de correction OCR trouvées automatiquement
- 0 incohérences GHM↔GHS sur les paires extraites