Snapshot des 18 JSONs produits par le pipeline V2 (Qwen2.5-VL-3B +
checkboxes densité + validation ATIH), utiles au collaborateur comme
référence de ce que la chaîne actuelle produit.
Rapports :
- bench_v2_report.md : comparaison V2 vs legacy docTR+VLM
(couverture, divergences, régressions
notables sur codage_reco et praticien).
- validation_report.md : résumé de la validation ATIH sur les 18
JSONs (131/149 → 140/149 codes valides
après fix suffixes `*` et `+N`, 0
incohérence GHM↔GHS, 8 suggestions de
correction OCR).
Script de comparaison :
- bench_v11_vs_legacy.py : tableau d'accord champ par champ entre
un run du pipeline (output/v2/) et les
JSONs legacy (output/).
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
36 lines
1.2 KiB
Markdown
36 lines
1.2 KiB
Markdown
# Rapport de validation ATIH — V2 (18 dossiers)
|
|
|
|
## Couverture et validité par champ
|
|
|
|
| Champ | Total | Valid | Invalid | Vide | Validité codes renseignés |
|
|
|---|---:|---:|---:|---:|---:|
|
|
| `ghm_etab` | 18 | 17 | 1 | 0 | 94% |
|
|
| `ghs_etab` | 18 | 17 | 1 | 0 | 94% |
|
|
| `ghm_reco` | 18 | 17 | 1 | 0 | 94% |
|
|
| `ghs_reco` | 18 | 17 | 1 | 0 | 94% |
|
|
| `codage_etab.dp` | 18 | 17 | 1 | 0 | 94% |
|
|
| `codage_etab.dr` | 18 | 11 | 3 | 4 | 79% |
|
|
| `codage_reco.dp` | 18 | 5 | 0 | 13 | 100% |
|
|
| `codage_reco.dr` | 18 | 5 | 1 | 12 | 83% |
|
|
| `codage_etab.das` | 31 | 30 | 0 | 1 | 100% |
|
|
| `codage_reco.das` | 5 | 4 | 0 | 1 | 100% |
|
|
|
|
## Corrections OCR suggérées (Levenshtein ≤ 1)
|
|
|
|
Codes extraits invalides mais ressemblant à un code ATIH existant :
|
|
|
|
| Dossier | Champ | Code extrait | Suggestion |
|
|
|---|---|---|---|
|
|
| OGC 7 | `codage_etab.dp` | `TS10` | **`T010`** |
|
|
| OGC 20 | `codage_etab.dr` | `I022` | **`A022`** |
|
|
| OGC 20 | `codage_reco.dr` | `I022` | **`A022`** |
|
|
|
|
## Incohérences GHM ↔ GHS détectées
|
|
|
|
✓ Aucune incohérence détectée sur les GHM/GHS extraits.
|
|
|
|
## Synthèse
|
|
|
|
- **140/149 codes valides** (94.0%)
|
|
- **3 suggestions de correction OCR** trouvées automatiquement
|
|
- **0 incohérences GHM↔GHS** sur les paires extraites |