Files
anonymisation/requirements.txt
Domi31tls 8d683bc6d8 feat(ocr): migrer l'OCR de docTR (PyTorch) vers OnnxTR (ONNX Runtime)
OnnxTR exécute les MÊMES modèles que docTR (db_resnet50 + crnn_vgg16_bn) sur
ONNX Runtime, sans PyTorch. Corrige le crash torch/oneDNN « could not create a
primitive » sur CPU contraint (VM 2 cœurs collaborateur : OCR scan impossible →
quarantaine). Qualité identique validée empiriquement (CER 0,10-0,23 % vs docTR,
2 validations indépendantes Claude+Qwen), OCR ~2-3× plus rapide CPU.

- core : import OnnxTR, _get_ocr_model(), _OCR_AVAILABLE, boucle OCR inchangée
  (API miroir) ; ONNXTR_CACHE_DIR pour le frozen ; bandeau de logs ENV au démarrage
  (OS, CPU+AVX, cœurs, RAM, versions, providers) pour retours terrain auto-suffisants.
- 3 .spec : embarquent les poids ONNX OnnxTR (fail-closed) + hiddenimports onnxtr.
- requirements : onnxtr[cpu] (python-doctr conservé transitoirement).
- inclut le correctif quarantaine-visible du runner (GO Qwen).

Tests : test_ocr_onnxtr.py (RED→GREEN), 95 unit passed, e2e scan client OK
(OCR 5/5, PDF produit, plus de crash). Retrait torch du frozen + rebuild Windows
= étapes suivantes (gates Dom).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-19 17:07:00 +02:00

44 lines
1.1 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# --- NER ONNX (CPU) ---
onnxruntime>=1.18.0
optimum[onnxruntime]>=2.0.0
transformers>=4.42.0
tokenizers>=0.19.0
sentencepiece>=0.2.0,<0.3
onnx>=1.16.0
# --- Core PDF & utilitaires ---
pymupdf==1.24.9
pdfplumber==0.11.5
pdfminer.six==20231228
Pillow==10.2.0
PyYAML==6.0.2
pyahocorasick>=2.1.0,<3
# (optionnel uniquement si tu utilises la voie PyTorch ailleurs)
# torch==2.3.1
# huggingface_hub==0.23.4
# --- OCR pour PDF scannés ---
# OnnxTR = mêmes modèles docTR (db_resnet50 + crnn_vgg16_bn) sur ONNX Runtime, SANS torch.
# Remplace docTR pour l'OCR (supprime le crash torch/oneDNN sur CPU contraint).
onnxtr[cpu]>=0.8.1
# python-doctr conservé en transitoire (retrait avec torch = étape séparée) :
python-doctr[torch]>=0.9.0
# (optionnel NER clinique EDS-Pseudo AP-HP, activer manuellement)
# edsnlp[ml]>=0.12.0
# (optionnel thème système natif pour la GUI v5)
# sv_ttk>=2.6
# (optionnel compilation en .exe natif via Nuitka)
# nuitka
# orderedset
# zstandard
# (optionnel si tu gardes spaCy dans d'autres chemins)
# spacy==3.7.4
# GUI V6 (customtkinter) — interface refondue, embarquée dans l'EXE
customtkinter==5.2.2