Domi31tls 2236fdcd01 Correction majeure des faux positifs et fuites d'anonymisation PDF
- Fix fuites critiques trackare : extraction multi-occurrences (re.finditer),
  noms soignants multi-lignes, N° épisode, tokens GLOBAL sur final_text
- Fix faux positifs PDF : whole-word matching pour tokens courts (<5 chars)
  au lieu de les ignorer (corrige Emma/Lili non masqués + évite substring)
- Skip EDS_SECU dans PDF (valeurs vitales PA/Pouls détectées comme N° sécu)
- Skip EDS_DATE dans PDF (dates rendaient les tableaux illisibles)
- Filtre dosages détectés comme noms (10MG, 300UI, 1 000)
- Filtre EDS_NOM multi-mots contenant des stop words (SI DIARRHEES)
- Regex CODE_POSTAL : exclure unités médicales (13000 UI ≠ code postal)
- Stop words massivement enrichis (~100+ termes médicaux, médicaments,
  abréviations, en-têtes de colonnes trackare)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-26 17:01:32 +01:00

placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete

L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.

Description
No description provided
Readme 247 MiB
Languages
Python 98.2%
Batchfile 1%
PowerShell 0.5%
Shell 0.3%