refactor: externaliser DPI labels et companion blacklist (modifiables sans recompiler)
Suite de l'externalisation des règles. Trois listes étaient codées en dur dans anonymizer_core_refactored_onnx.py et impossibles à modifier par les établissements sans recompiler : - _NEVER_MASK_AS_NAME (12 entrées) — labels DPI structurels - _DPI_LABELS_BLACKLIST (14 entrées, doublon partiel du précédent) - _COMPANION_BLACKLIST (~75 entrées) — spécialités, labos pharma, mots ambigus Les deux premières fusionnées dans data/dpi_labels_blacklist.txt (11 entrées uniques, comparaison case-insensitive). La troisième dans data/companion_blacklist.txt (75 entrées, comparaison uppercase). Ajout de deux clés YAML pour enrichissement par établissement : - additional_dpi_labels (ex: "Service", "Statut") - additional_companion_blacklist (ex: spécialités locales) Les 3 niveaux cumulatifs habituels s'appliquent : code (vide) → fichiers data/ → YAML config. Chargement au démarrage avec log INFO du nombre d'entrées. Test trackare-18007562-23054899 : 122 hits, 0 régression, 0 DPI label masqué comme NOM. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
16
data/dpi_labels_blacklist.txt
Normal file
16
data/dpi_labels_blacklist.txt
Normal file
@@ -0,0 +1,16 @@
|
||||
# Labels DPI / mots structurels à ne JAMAIS masquer comme noms
|
||||
# (titres de colonnes, en-têtes de sections, libellés de champs DPI)
|
||||
# Comparaison case-insensitive — un mot par ligne.
|
||||
# Lignes vides et lignes commençant par # ignorées.
|
||||
|
||||
Date
|
||||
Note
|
||||
Heure
|
||||
Type
|
||||
Soin
|
||||
Soins
|
||||
Surv
|
||||
Page
|
||||
Presc
|
||||
Saint
|
||||
Sainte
|
||||
Reference in New Issue
Block a user