feat: réduction FP + gazetteers adresses FINESS + batch parallèle + corrections multi-axes

- Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...)
- Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers
- BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives
- Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization)
- Filtre contextuel anatomique pour FINESS établissements
- Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM,
  RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM
- URLs complètes (RE_URL) + détection multiline
- N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES
- HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient)
- Batch silver export parallélisé (multiprocessing spawn, N workers)
- Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner)
- Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-03-16 09:26:56 +01:00
parent a827d860f1
commit 49ff464e6e
18 changed files with 358579 additions and 232 deletions

View File

@@ -1184,8 +1184,8 @@ déglobulisation. O
Bladder O
négatif. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
antalgique O
: O
Faux B-VILLE
@@ -1515,8 +1515,8 @@ cette O
patiente O
altérée O
sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
général, O
OMS2/3. O
> O
@@ -1529,8 +1529,8 @@ du O
traitement O
antalgique. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
infectieux O
: O
Pic O
@@ -2817,8 +2817,8 @@ apyrexie O
au O
décours. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
urologique O
: O
Un O
@@ -2919,8 +2919,8 @@ oncologique O
Nette O
amélioration O
sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
général O
avec O
la O

View File

@@ -2572,8 +2572,8 @@ de O
traitement O
antibiotique O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
hématologique O
Anémie O
autour O

View File

@@ -1812,8 +1812,8 @@ de O
cette O
décision. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
hématologique: O
Elle O
présente O

View File

@@ -1420,8 +1420,8 @@ en O
charge O
antalgique. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
de O
la O
gravité: O

View File

@@ -1102,8 +1102,8 @@ de O
l'épisode O
aigüe. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
infectieux, O
présence O
de O