Files

Dom 71f91d9c31 chore(scratch): archives des scripts exploratoires de choix d'OCR

Conservés comme trace de recherche — non documentés, non factorisés,
ne pas dépendre de ce dossier depuis le code de production.

- test_glm_ocr.py          : benchmark GLM-OCR 0.9B (écarté pour
                             faiblesse sur dp_libelle, praticien et
                             colonne Recodage).
- test_got_ocr.py          : tests GOT-OCR2.0 (échec sur tableaux
                             denses à en-têtes verticaux).
- test_paddle.py           : tentative PaddleOCR (incompatible avec
                             paddlepaddle installé).
- test_surya.py            : tentative Surya (incompatible
                             transformers 5.6).
- test_qwen_vl.py          : Qwen2.5-VL-7B (excellent mais 220s/page,
                             écarté faute de VRAM et vitesse).
- test_qwen_vl_3b.py       : Qwen2.5-VL-3B (retenu, 3s/page, qualité
                             > GLM-OCR sur les champs critiques).
- test_prompt_ab.py        : A/B test prompts Accord/Désaccord.
- test_prompt_crop*.py     : prompts + crop ciblé checkboxes (échec
                             → module pipeline/checkboxes.py).
- test_prompt_recueil_*.py : prompts page recueil (consignes verbeuses
                             dégradent la sortie, cf. discussion).
- README.md                : index du dossier.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-24 15:06:44 +02:00

README.md

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_glm_ocr.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_got_ocr.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_paddle.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_prompt_ab.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_prompt_crop_v2.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_prompt_crop.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_prompt_recueil_ab2.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_prompt_recueil_ab.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_qwen_vl_3b.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_qwen_vl.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

test_surya.py

chore(scratch): archives des scripts exploratoires de choix d'OCR

2026-04-24 15:06:44 +02:00

README.md

scratch/ — scripts exploratoires

Traces des tests manuels de prototypage réalisés pendant le choix du modèle OCR :

test_glm_ocr.py — benchmark initial GLM-OCR 0.9B (écarté)
test_got_ocr.py — tests GOT-OCR2.0 (échec sur les tableaux denses)
test_paddle.py — tentative PaddleOCR (incompatible avec paddlepaddle installé)
test_surya.py — tentative Surya (incompatible avec transformers 5.6)
test_qwen_vl.py / test_qwen_vl_3b.py — Qwen2.5-VL 7B et 3B (3B retenu)
test_prompt_*.py — A/B test prompts (checkboxes et recueil)

Non documenté, peu factorisé : ne pas dépendre de ce dossier depuis le code de production. Seuls pipeline/, pipeline/referentials.py, pipeline/ui_overlay.py et annotate_validation.py sont le périmètre stable.