Petit utilitaire pour re-traiter le corpus audit_30 avec le code courant
et générer un dossier de sortie horodaté.
Usage:
python scripts/reprocess_audit30.py [--out /tmp/.../foo] [--no-ner]
Lit la liste des 29 docs depuis evaluation/baseline_scores.json, retrouve
chaque PDF source dans /home/dom/Téléchargements/.../CHCB_DocJustificatifs,
appelle process_pdf() pour chacun, sortie dans /tmp/reprocess_audit30/
(ou --out).
Permet ensuite de mesurer la qualité avec :
python scripts/evaluate_quality.py --dir <output> --compare
Validé sur audit_30 — 29 docs en ~4 min avec NER ONNX.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
4.4 KiB
4.4 KiB