Externalize dictionaries and add anonymization review corpus

This commit is contained in:
2026-04-21 10:32:57 +02:00
parent 39db675052
commit 34dcf8f360
99 changed files with 1805 additions and 805 deletions

View File

@@ -0,0 +1,59 @@
# Template versionné des règles d'anonymisation.
# Ce fichier décrit les valeurs par défaut complètes de l'application.
# La surcharge locale chargée par défaut est config/dictionnaires.yml.
version: 1
encoding: utf-8
normalization: NFKC
whitelist:
sections_titres:
- DIM
- GHM
- GHS
- RUM
- COMPTE
- RENDU
- DIAGNOSTIC
noms_maj_excepts:
- Médecin DIM
- Praticien conseil
org_gpe_keep: false
blacklist:
# Sigles et libellés propres à l'établissement non couverts par les gazetteers
# nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
# villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
force_mask_terms:
- CHCB
- 'Dates du séjour :'
- CONCERTATION
- LABORATOIRE de BIOLOGIE MEDICALE
force_mask_regex:
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
kv_labels_preserve:
- FINESS
- IPP
- N° OGC
- Etablissement
regex_overrides:
- name: OGC_court
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
placeholder: '[OGC]'
flags:
- IGNORECASE
whitelist_phrases:
- "classification internationale"
- "prise en charge"
- "bas de contention"
- "date de naissance"
- "lieu de naissance"
- "ville de résidence"
- "date de sortie"
- "date d'admission"
- "code postal"
additional_stopwords: []
additional_villes_blacklist: []
additional_dpi_labels: []
additional_companion_blacklist: []
flags:
case_insensitive: true
unicode_word_boundaries: true
regex_engine: python

View File

@@ -1,83 +1,11 @@
version: 1
encoding: utf-8
normalization: NFKC
whitelist:
sections_titres:
- DIM
- GHM
- GHS
- RUM
- COMPTE
- RENDU
- DIAGNOSTIC
noms_maj_excepts:
- Médecin DIM
- Praticien conseil
org_gpe_keep: false
blacklist:
# Sigles et libellés propres à l'établissement non couverts par les gazetteers
# nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
# villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
force_mask_terms:
- CHCB # Sigle local non référencé FINESS
- 'Dates du séjour :' # Libellé administratif (politique masquage)
- CONCERTATION # Mention de RCP (politique métier)
- LABORATOIRE de BIOLOGIE MEDICALE # Libellé administratif générique
force_mask_regex:
# Adresse précise du CHCB — couverte par l'AC FINESS adresses mais on garde
# la regex en filet de sécurité (encodages PDF, espaces non standards).
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
kv_labels_preserve:
- FINESS
- IPP
- N° OGC
- Etablissement
regex_overrides:
- name: OGC_court
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
placeholder: '[OGC]'
flags:
- IGNORECASE
# Phrases à ne JAMAIS anonymiser (faux positifs récurrents)
# Ajouter ici les expressions qui sont masquées à tort.
# La correspondance est insensible à la casse.
whitelist_phrases:
- "classification internationale"
- "prise en charge"
- "bas de contention"
- "date de naissance"
- "lieu de naissance"
- "ville de résidence"
- "date de sortie"
- "date d'admission"
- "code postal"
# Mots supplémentaires à ne jamais masquer comme noms de personnes
# (complète les 9000+ stop-words intégrés)
additional_stopwords: []
# Exemple :
# - "votre_mot"
# Villes supplémentaires à ne jamais matcher comme lieux
# (complète les 115+ villes blacklistées intégrées)
additional_villes_blacklist: []
# Exemple :
# - "VOTRE_VILLE"
# Labels DPI supplémentaires à ne jamais masquer comme noms
# (complète data/dpi_labels_blacklist.txt)
# Utiliser pour : titres de colonnes, en-têtes de sections, libellés de champs
additional_dpi_labels: []
# Exemple :
# - "Service"
# - "Statut"
# Termes en MAJUSCULES à ne jamais propager comme noms compagnons
# (complète data/companion_blacklist.txt — spécialités, labos pharma, mots ambigus)
additional_companion_blacklist: []
# Exemple :
# - "VOTRE_SPECIALITE"
flags:
case_insensitive: true
unicode_word_boundaries: true
regex_engine: python
# Surcharge locale chargée par défaut par l'application.
# Source de vérité des valeurs par défaut : config/dictionnaires.default.yml
# Ce fichier ne doit contenir que les écarts spécifiques à l'environnement courant.
#
# Exemples :
# blacklist:
# force_mask_terms:
# - VOTRE_SIGLE
# additional_stopwords:
# - votre_terme
{}