Files
anonymisation/config/dictionnaires.yml
Domi31tls 96d55584c7 Fix 62 fuites résiduelles : DATE_NAISSANCE global, CHCB, Centre Hospitalier de la Côte Basque
- RE_HOPITAL_VILLE : ajout articles (la/le/l'/les) après prépositions
- DATE_NAISSANCE + force_term + force_regex : propagation globale cross-pages
- Config : org_gpe_keep=false, CHCB + variantes Centre Hospitalier en force_mask
- Audit 130 fichiers : 0 résidu (était 36 DATE_NAISS + 26 ETAB)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-27 12:07:58 +01:00

41 lines
765 B
YAML

version: 1
encoding: utf-8
normalization: NFKC
whitelist:
sections_titres:
- DIM
- GHM
- GHS
- RUM
- COMPTE
- RENDU
- DIAGNOSTIC
noms_maj_excepts:
- Médecin DIM
- Praticien conseil
org_gpe_keep: false
blacklist:
force_mask_terms:
- CENTRE HOSPITALIER COTE BASQUE
- CENTRE HOSPITALIER DE LA COTE BASQUE
- CHCB
- 'Dates du séjour :'
- CONCERTATION
force_mask_regex:
- 'Centre\s+Hospitalier\s+(?:de\s+(?:la\s+)?)?C[oôÔ]te\s+Basque'
kv_labels_preserve:
- FINESS
- IPP
- N° OGC
- Etablissement
regex_overrides:
- name: OGC_court
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
placeholder: '[OGC]'
flags:
- IGNORECASE
flags:
case_insensitive: true
unicode_word_boundaries: true
regex_engine: python