# Template versionné des règles d'anonymisation.
# Ce fichier décrit les valeurs par défaut complètes de l'application.
# La surcharge locale chargée par défaut est config/dictionnaires.yml.
version: 1
encoding: utf-8
normalization: NFKC
whitelist:
  sections_titres:
  - DIM
  - GHM
  - GHS
  - RUM
  - COMPTE
  - RENDU
  - DIAGNOSTIC
  noms_maj_excepts:
  - Médecin DIM
  - Praticien conseil
  org_gpe_keep: false
blacklist:
  # Sigles et libellés propres à l'établissement non couverts par les gazetteers
  # nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
  # villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
  force_mask_terms:
  - CHUXX
  - 'Dates du séjour :'
  - LABORATOIRE de BIOLOGIE MEDICALE
  force_mask_regex:
  - '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
kv_labels_preserve:
- FINESS
- IPP
- N° OGC
- Etablissement
regex_overrides:
- name: OGC_court
  pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
  placeholder: '[OGC]'
  flags:
  - IGNORECASE
whitelist_phrases:
  - "classification internationale"
  - "prise en charge"
  - "bas de contention"
  - "date de naissance"
  - "lieu de naissance"
  - "ville de résidence"
  - "date de sortie"
  - "date d'admission"
  - "code postal"
additional_stopwords: []
additional_villes_blacklist: []
additional_dpi_labels: []
additional_companion_blacklist: []
flags:
  case_insensitive: true
  unicode_word_boundaries: true
  regex_engine: python