Initial commit — Pseudonymisation de PDF v5

- GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles - Core ONNX : anonymisation regex + NER optionnel - Extraction globale des noms depuis champs structurés (Patient, Rédigé par, MME/Madame, DR) - Génération simultanée PDF Image + PDF Anonymisé (structure préservée) - Build Windows via Nuitka (script batch + GitHub Actions CI) - install.sh pour setup/run Linux Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-16 15:03:37 +01:00
commit 8339069c83
18 changed files with 5127 additions and 0 deletions
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,35 @@
+# --- NER ONNX (CPU) ---
+onnxruntime>=1.18.0
+optimum[onnxruntime]>=2.0.0
+transformers>=4.42.0
+tokenizers>=0.19.0
+sentencepiece>=0.2.0,<0.3
+onnx>=1.16.0
+
+# --- Core PDF & utilitaires ---
+pymupdf==1.24.9
+pdfplumber==0.11.5
+pdfminer.six==20231228
+Pillow==10.2.0
+PyYAML==6.0.2
+
+# (optionnel – uniquement si tu utilises la voie PyTorch ailleurs)
+# torch==2.3.1
+# huggingface_hub==0.23.4
+
+# (optionnel – OCR pour PDF scannés, nécessite torch)
+# python-doctr[torch]>=0.9.0
+
+# (optionnel – NER clinique EDS-Pseudo AP-HP, activer manuellement)
+# edsnlp[ml]>=0.12.0
+
+# (optionnel – thème système natif pour la GUI v5)
+# sv_ttk>=2.6
+
+# (optionnel – compilation en .exe natif via Nuitka)
+# nuitka
+# orderedset
+# zstandard
+
+# (optionnel – si tu gardes spaCy dans d'autres chemins)
+# spacy==3.7.4