feat: réduction FP + gazetteers adresses FINESS + batch parallèle + corrections multi-axes
- Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...) - Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers - BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives - Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization) - Filtre contextuel anatomique pour FINESS établissements - Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM, RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM - URLs complètes (RE_URL) + détection multiline - N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES - HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient) - Batch silver export parallélisé (multiprocessing spawn, N workers) - Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner) - Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -1184,8 +1184,8 @@ déglobulisation. O
|
||||
Bladder O
|
||||
négatif. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
antalgique O
|
||||
: O
|
||||
Faux B-VILLE
|
||||
@@ -1515,8 +1515,8 @@ cette O
|
||||
patiente O
|
||||
altérée O
|
||||
sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
général, O
|
||||
OMS2/3. O
|
||||
> O
|
||||
@@ -1529,8 +1529,8 @@ du O
|
||||
traitement O
|
||||
antalgique. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
infectieux O
|
||||
: O
|
||||
Pic O
|
||||
@@ -2817,8 +2817,8 @@ apyrexie O
|
||||
au O
|
||||
décours. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
urologique O
|
||||
: O
|
||||
Un O
|
||||
@@ -2919,8 +2919,8 @@ oncologique O
|
||||
Nette O
|
||||
amélioration O
|
||||
sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
général O
|
||||
avec O
|
||||
la O
|
||||
|
||||
@@ -2572,8 +2572,8 @@ de O
|
||||
traitement O
|
||||
antibiotique O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
hématologique O
|
||||
Anémie O
|
||||
autour O
|
||||
|
||||
@@ -1812,8 +1812,8 @@ de O
|
||||
cette O
|
||||
décision. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
hématologique: O
|
||||
Elle O
|
||||
présente O
|
||||
|
||||
@@ -1420,8 +1420,8 @@ en O
|
||||
charge O
|
||||
antalgique. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
de O
|
||||
la O
|
||||
gravité: O
|
||||
|
||||
@@ -1102,8 +1102,8 @@ de O
|
||||
l'épisode O
|
||||
aigüe. O
|
||||
Sur O
|
||||
le O
|
||||
plan B-VILLE
|
||||
le B-VILLE
|
||||
plan I-VILLE
|
||||
infectieux, O
|
||||
présence O
|
||||
de O
|
||||
|
||||
Reference in New Issue
Block a user