Initial commit — Pseudonymisation de PDF v5

- GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles
- Core ONNX : anonymisation regex + NER optionnel
- Extraction globale des noms depuis champs structurés
  (Patient, Rédigé par, MME/Madame, DR)
- Génération simultanée PDF Image + PDF Anonymisé (structure préservée)
- Build Windows via Nuitka (script batch + GitHub Actions CI)
- install.sh pour setup/run Linux

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
2026-02-16 15:03:37 +01:00
commit 8339069c83
18 changed files with 5127 additions and 0 deletions

35
requirements.txt Normal file
View File

@@ -0,0 +1,35 @@
# --- NER ONNX (CPU) ---
onnxruntime>=1.18.0
optimum[onnxruntime]>=2.0.0
transformers>=4.42.0
tokenizers>=0.19.0
sentencepiece>=0.2.0,<0.3
onnx>=1.16.0
# --- Core PDF & utilitaires ---
pymupdf==1.24.9
pdfplumber==0.11.5
pdfminer.six==20231228
Pillow==10.2.0
PyYAML==6.0.2
# (optionnel uniquement si tu utilises la voie PyTorch ailleurs)
# torch==2.3.1
# huggingface_hub==0.23.4
# (optionnel OCR pour PDF scannés, nécessite torch)
# python-doctr[torch]>=0.9.0
# (optionnel NER clinique EDS-Pseudo AP-HP, activer manuellement)
# edsnlp[ml]>=0.12.0
# (optionnel thème système natif pour la GUI v5)
# sv_ttk>=2.6
# (optionnel compilation en .exe natif via Nuitka)
# nuitka
# orderedset
# zstandard
# (optionnel si tu gardes spaCy dans d'autres chemins)
# spacy==3.7.4