Externalize dictionaries and add anonymization review corpus
This commit is contained in:
59
config/dictionnaires.default.yml
Normal file
59
config/dictionnaires.default.yml
Normal file
@@ -0,0 +1,59 @@
|
||||
# Template versionné des règles d'anonymisation.
|
||||
# Ce fichier décrit les valeurs par défaut complètes de l'application.
|
||||
# La surcharge locale chargée par défaut est config/dictionnaires.yml.
|
||||
version: 1
|
||||
encoding: utf-8
|
||||
normalization: NFKC
|
||||
whitelist:
|
||||
sections_titres:
|
||||
- DIM
|
||||
- GHM
|
||||
- GHS
|
||||
- RUM
|
||||
- COMPTE
|
||||
- RENDU
|
||||
- DIAGNOSTIC
|
||||
noms_maj_excepts:
|
||||
- Médecin DIM
|
||||
- Praticien conseil
|
||||
org_gpe_keep: false
|
||||
blacklist:
|
||||
# Sigles et libellés propres à l'établissement non couverts par les gazetteers
|
||||
# nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
|
||||
# villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
|
||||
force_mask_terms:
|
||||
- CHCB
|
||||
- 'Dates du séjour :'
|
||||
- CONCERTATION
|
||||
- LABORATOIRE de BIOLOGIE MEDICALE
|
||||
force_mask_regex:
|
||||
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
|
||||
kv_labels_preserve:
|
||||
- FINESS
|
||||
- IPP
|
||||
- N° OGC
|
||||
- Etablissement
|
||||
regex_overrides:
|
||||
- name: OGC_court
|
||||
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
|
||||
placeholder: '[OGC]'
|
||||
flags:
|
||||
- IGNORECASE
|
||||
whitelist_phrases:
|
||||
- "classification internationale"
|
||||
- "prise en charge"
|
||||
- "bas de contention"
|
||||
- "date de naissance"
|
||||
- "lieu de naissance"
|
||||
- "ville de résidence"
|
||||
- "date de sortie"
|
||||
- "date d'admission"
|
||||
- "code postal"
|
||||
additional_stopwords: []
|
||||
additional_villes_blacklist: []
|
||||
additional_dpi_labels: []
|
||||
additional_companion_blacklist: []
|
||||
flags:
|
||||
case_insensitive: true
|
||||
unicode_word_boundaries: true
|
||||
regex_engine: python
|
||||
@@ -1,83 +1,11 @@
|
||||
version: 1
|
||||
encoding: utf-8
|
||||
normalization: NFKC
|
||||
whitelist:
|
||||
sections_titres:
|
||||
- DIM
|
||||
- GHM
|
||||
- GHS
|
||||
- RUM
|
||||
- COMPTE
|
||||
- RENDU
|
||||
- DIAGNOSTIC
|
||||
noms_maj_excepts:
|
||||
- Médecin DIM
|
||||
- Praticien conseil
|
||||
org_gpe_keep: false
|
||||
blacklist:
|
||||
# Sigles et libellés propres à l'établissement non couverts par les gazetteers
|
||||
# nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
|
||||
# villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
|
||||
force_mask_terms:
|
||||
- CHCB # Sigle local non référencé FINESS
|
||||
- 'Dates du séjour :' # Libellé administratif (politique masquage)
|
||||
- CONCERTATION # Mention de RCP (politique métier)
|
||||
- LABORATOIRE de BIOLOGIE MEDICALE # Libellé administratif générique
|
||||
force_mask_regex:
|
||||
# Adresse précise du CHCB — couverte par l'AC FINESS adresses mais on garde
|
||||
# la regex en filet de sécurité (encodages PDF, espaces non standards).
|
||||
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
|
||||
kv_labels_preserve:
|
||||
- FINESS
|
||||
- IPP
|
||||
- N° OGC
|
||||
- Etablissement
|
||||
regex_overrides:
|
||||
- name: OGC_court
|
||||
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
|
||||
placeholder: '[OGC]'
|
||||
flags:
|
||||
- IGNORECASE
|
||||
# Phrases à ne JAMAIS anonymiser (faux positifs récurrents)
|
||||
# Ajouter ici les expressions qui sont masquées à tort.
|
||||
# La correspondance est insensible à la casse.
|
||||
whitelist_phrases:
|
||||
- "classification internationale"
|
||||
- "prise en charge"
|
||||
- "bas de contention"
|
||||
- "date de naissance"
|
||||
- "lieu de naissance"
|
||||
- "ville de résidence"
|
||||
- "date de sortie"
|
||||
- "date d'admission"
|
||||
- "code postal"
|
||||
# Mots supplémentaires à ne jamais masquer comme noms de personnes
|
||||
# (complète les 9000+ stop-words intégrés)
|
||||
additional_stopwords: []
|
||||
# Exemple :
|
||||
# - "votre_mot"
|
||||
|
||||
# Villes supplémentaires à ne jamais matcher comme lieux
|
||||
# (complète les 115+ villes blacklistées intégrées)
|
||||
additional_villes_blacklist: []
|
||||
# Exemple :
|
||||
# - "VOTRE_VILLE"
|
||||
|
||||
# Labels DPI supplémentaires à ne jamais masquer comme noms
|
||||
# (complète data/dpi_labels_blacklist.txt)
|
||||
# Utiliser pour : titres de colonnes, en-têtes de sections, libellés de champs
|
||||
additional_dpi_labels: []
|
||||
# Exemple :
|
||||
# - "Service"
|
||||
# - "Statut"
|
||||
|
||||
# Termes en MAJUSCULES à ne jamais propager comme noms compagnons
|
||||
# (complète data/companion_blacklist.txt — spécialités, labos pharma, mots ambigus)
|
||||
additional_companion_blacklist: []
|
||||
# Exemple :
|
||||
# - "VOTRE_SPECIALITE"
|
||||
|
||||
flags:
|
||||
case_insensitive: true
|
||||
unicode_word_boundaries: true
|
||||
regex_engine: python
|
||||
# Surcharge locale chargée par défaut par l'application.
|
||||
# Source de vérité des valeurs par défaut : config/dictionnaires.default.yml
|
||||
# Ce fichier ne doit contenir que les écarts spécifiques à l'environnement courant.
|
||||
#
|
||||
# Exemples :
|
||||
# blacklist:
|
||||
# force_mask_terms:
|
||||
# - VOTRE_SIGLE
|
||||
# additional_stopwords:
|
||||
# - votre_terme
|
||||
{}
|
||||
|
||||
Reference in New Issue
Block a user