t2a/requirements.txt at 4a12cd267632b03acecce44337ebf8b1476ed6c0 - t2a - Gitea Aivanov : Git with a cup of tea

Dom/t2a

Files

dom 4a12cd2676 feat: pipeline T2A - anonymisation, extraction CIM-10 et intégration edsnlp

Pipeline complet de traitement de documents médicaux PDF :
- Extraction texte (pdfplumber) et classification (Trackare/CRH)
- Anonymisation multi-couche (regex + NER CamemBERT + sweep)
- Extraction médicale CIM-10 hybride : edsnlp (AP-HP) enrichit les
  diagnostics, médicaments (codes ATC via Romedi) et négation,
  avec fallback regex pour les patterns spécifiques
- Fix sentencepiece pinné à <0.2.0 pour compatibilité CamemBERT

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-02-10 15:24:12 +01:00

9 lines

145 B

Plaintext

Raw Blame History

 pdfplumber>=0.10.0
 transformers>=4.35.0
 torch>=2.1.0
 regex>=2023.0
 pydantic>=2.5.0
 pytest>=7.4.0
 sentencepiece>=0.1.99,<0.2.0
 edsnlp[ml]>=0.17.0