feat: réduction FP + gazetteers adresses FINESS + batch parallèle + corrections multi-axes

- Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...)
- Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers
- BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives
- Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization)
- Filtre contextuel anatomique pour FINESS établissements
- Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM,
  RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM
- URLs complètes (RE_URL) + détection multiline
- N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES
- HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient)
- Batch silver export parallélisé (multiprocessing spawn, N workers)
- Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner)
- Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-03-16 09:26:56 +01:00
parent a827d860f1
commit 49ff464e6e
18 changed files with 358579 additions and 232 deletions

15816
data/bdpm/CIS_bdpm.txt Normal file

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

218984
data/insee/noms2008nat_txt.txt Normal file

File diff suppressed because it is too large Load Diff

View File

@@ -1184,8 +1184,8 @@ déglobulisation. O
Bladder O
négatif. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
antalgique O
: O
Faux B-VILLE
@@ -1515,8 +1515,8 @@ cette O
patiente O
altérée O
sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
général, O
OMS2/3. O
> O
@@ -1529,8 +1529,8 @@ du O
traitement O
antalgique. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
infectieux O
: O
Pic O
@@ -2817,8 +2817,8 @@ apyrexie O
au O
décours. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
urologique O
: O
Un O
@@ -2919,8 +2919,8 @@ oncologique O
Nette O
amélioration O
sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
général O
avec O
la O

View File

@@ -2572,8 +2572,8 @@ de O
traitement O
antibiotique O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
hématologique O
Anémie O
autour O

View File

@@ -1812,8 +1812,8 @@ de O
cette O
décision. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
hématologique: O
Elle O
présente O

View File

@@ -1420,8 +1420,8 @@ en O
charge O
antalgique. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
de O
la O
gravité: O

View File

@@ -1102,8 +1102,8 @@ de O
l'épisode O
aigüe. O
Sur O
le O
plan B-VILLE
le B-VILLE
plan I-VILLE
infectieux, O
présence O
de O