refactor: externaliser DPI labels et companion blacklist (modifiables sans recompiler)
Suite de l'externalisation des règles. Trois listes étaient codées en dur dans anonymizer_core_refactored_onnx.py et impossibles à modifier par les établissements sans recompiler : - _NEVER_MASK_AS_NAME (12 entrées) — labels DPI structurels - _DPI_LABELS_BLACKLIST (14 entrées, doublon partiel du précédent) - _COMPANION_BLACKLIST (~75 entrées) — spécialités, labos pharma, mots ambigus Les deux premières fusionnées dans data/dpi_labels_blacklist.txt (11 entrées uniques, comparaison case-insensitive). La troisième dans data/companion_blacklist.txt (75 entrées, comparaison uppercase). Ajout de deux clés YAML pour enrichissement par établissement : - additional_dpi_labels (ex: "Service", "Statut") - additional_companion_blacklist (ex: spécialités locales) Les 3 niveaux cumulatifs habituels s'appliquent : code (vide) → fichiers data/ → YAML config. Chargement au démarrage avec log INFO du nombre d'entrées. Test trackare-18007562-23054899 : 122 hits, 0 régression, 0 DPI label masqué comme NOM. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
94
data/companion_blacklist.txt
Normal file
94
data/companion_blacklist.txt
Normal file
@@ -0,0 +1,94 @@
|
||||
# Companion blacklist : termes en MAJUSCULES qui apparaissent à côté d'un nom
|
||||
# connu mais qui NE SONT PAS des noms (spécialités médicales, labos pharma,
|
||||
# mots courants ambigus). Évite la propagation FP : "DUPONT CARDIOLOGIE"
|
||||
# ne propage pas "CARDIOLOGIE" comme nom.
|
||||
#
|
||||
# Format : un terme par ligne, en MAJUSCULES.
|
||||
# Lignes vides et lignes commençant par # ignorées.
|
||||
|
||||
# Mots ambigus courants
|
||||
ZONE
|
||||
PARTI
|
||||
PLAN
|
||||
MAIN
|
||||
FORT
|
||||
FORTE
|
||||
BILAN
|
||||
MISE
|
||||
NOTE
|
||||
AIDE
|
||||
BASE
|
||||
FACE
|
||||
DOSE
|
||||
TIGE
|
||||
VOIE
|
||||
ONDE
|
||||
SOIN
|
||||
DEMI
|
||||
MODE
|
||||
CURE
|
||||
PAGE
|
||||
|
||||
# Spécialités / services médicaux
|
||||
CANCEROLOGIE
|
||||
ONCOLOGIE
|
||||
REANIMATION
|
||||
RADIOLOGIE
|
||||
CARDIOLOGIE
|
||||
NEUROLOGIE
|
||||
PNEUMOLOGIE
|
||||
UROLOGIE
|
||||
GERIATRIE
|
||||
PEDIATRIE
|
||||
NEPHROLOGIE
|
||||
HEMATOLOGIE
|
||||
OPHTALMOLOGIE
|
||||
STOMATOLOGIE
|
||||
ALLERGOLOGIE
|
||||
RHUMATOLOGIE
|
||||
DERMATOLOGIE
|
||||
IMMUNOLOGIE
|
||||
|
||||
# Termes médicaux / courants (FP signalés OGC 21)
|
||||
ALIMENTATION
|
||||
AUGMENTATION
|
||||
AMELIORATION
|
||||
BILIAIRES
|
||||
BILIAIRE
|
||||
VOIES
|
||||
BILI
|
||||
MEDECINE
|
||||
ENTERO
|
||||
DOSSIER
|
||||
AVIATION
|
||||
SULFAMIDES
|
||||
CLAVULANIQUE
|
||||
MECILLINAM
|
||||
TAZOBACTAM
|
||||
TEMOCILLINE
|
||||
ECOFLAC
|
||||
FURANES
|
||||
CONTENTION
|
||||
ISOLEMENT
|
||||
ELIMINATION
|
||||
|
||||
# Labos pharmaceutiques (FP dans tableaux prescriptions trackare)
|
||||
MACO
|
||||
AGUETTANT
|
||||
RENAUDIN
|
||||
LAVOISIER
|
||||
COOPER
|
||||
ARROW
|
||||
BIOGARAN
|
||||
MYLAN
|
||||
TEVA
|
||||
ZENTIVA
|
||||
|
||||
# Termes médicaux additionnels
|
||||
PANCREATITE
|
||||
INFECTIEUX
|
||||
HEMODYNAMIQUE
|
||||
SENSIBLE
|
||||
VARIABLE
|
||||
DOSAGE
|
||||
CAT
|
||||
16
data/dpi_labels_blacklist.txt
Normal file
16
data/dpi_labels_blacklist.txt
Normal file
@@ -0,0 +1,16 @@
|
||||
# Labels DPI / mots structurels à ne JAMAIS masquer comme noms
|
||||
# (titres de colonnes, en-têtes de sections, libellés de champs DPI)
|
||||
# Comparaison case-insensitive — un mot par ligne.
|
||||
# Lignes vides et lignes commençant par # ignorées.
|
||||
|
||||
Date
|
||||
Note
|
||||
Heure
|
||||
Type
|
||||
Soin
|
||||
Soins
|
||||
Surv
|
||||
Page
|
||||
Presc
|
||||
Saint
|
||||
Sainte
|
||||
Reference in New Issue
Block a user