Conservés comme trace de recherche — non documentés, non factorisés,
ne pas dépendre de ce dossier depuis le code de production.
- test_glm_ocr.py : benchmark GLM-OCR 0.9B (écarté pour
faiblesse sur dp_libelle, praticien et
colonne Recodage).
- test_got_ocr.py : tests GOT-OCR2.0 (échec sur tableaux
denses à en-têtes verticaux).
- test_paddle.py : tentative PaddleOCR (incompatible avec
paddlepaddle installé).
- test_surya.py : tentative Surya (incompatible
transformers 5.6).
- test_qwen_vl.py : Qwen2.5-VL-7B (excellent mais 220s/page,
écarté faute de VRAM et vitesse).
- test_qwen_vl_3b.py : Qwen2.5-VL-3B (retenu, 3s/page, qualité
> GLM-OCR sur les champs critiques).
- test_prompt_ab.py : A/B test prompts Accord/Désaccord.
- test_prompt_crop*.py : prompts + crop ciblé checkboxes (échec
→ module pipeline/checkboxes.py).
- test_prompt_recueil_*.py : prompts page recueil (consignes verbeuses
dégradent la sortie, cf. discussion).
- README.md : index du dossier.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
scratch/ — scripts exploratoires
Traces des tests manuels de prototypage réalisés pendant le choix du modèle OCR :
test_glm_ocr.py— benchmark initial GLM-OCR 0.9B (écarté)test_got_ocr.py— tests GOT-OCR2.0 (échec sur les tableaux denses)test_paddle.py— tentative PaddleOCR (incompatible avec paddlepaddle installé)test_surya.py— tentative Surya (incompatible avec transformers 5.6)test_qwen_vl.py/test_qwen_vl_3b.py— Qwen2.5-VL 7B et 3B (3B retenu)test_prompt_*.py— A/B test prompts (checkboxes et recueil)
Non documenté, peu factorisé : ne pas dépendre de ce dossier depuis le code
de production. Seuls pipeline/, pipeline/referentials.py, pipeline/ui_overlay.py
et annotate_validation.py sont le périmètre stable.