version: 1 encoding: utf-8 normalization: NFKC whitelist: sections_titres: - DIM - GHM - GHS - RUM - COMPTE - RENDU - DIAGNOSTIC noms_maj_excepts: - Médecin DIM - Praticien conseil org_gpe_keep: false blacklist: # Sigles et libellés propres à l'établissement non couverts par les gazetteers # nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux, # villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement. force_mask_terms: - CHCB # Sigle local non référencé FINESS - 'Dates du séjour :' # Libellé administratif (politique masquage) - CONCERTATION # Mention de RCP (politique métier) - LABORATOIRE de BIOLOGIE MEDICALE # Libellé administratif générique force_mask_regex: # Adresse précise du CHCB — couverte par l'AC FINESS adresses mais on garde # la regex en filet de sécurité (encodages PDF, espaces non standards). - '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+' kv_labels_preserve: - FINESS - IPP - N° OGC - Etablissement regex_overrides: - name: OGC_court pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b placeholder: '[OGC]' flags: - IGNORECASE # Phrases à ne JAMAIS anonymiser (faux positifs récurrents) # Ajouter ici les expressions qui sont masquées à tort. # La correspondance est insensible à la casse. whitelist_phrases: - "classification internationale" - "prise en charge" - "bas de contention" - "date de naissance" - "lieu de naissance" - "ville de résidence" - "date de sortie" - "date d'admission" - "code postal" # Mots supplémentaires à ne jamais masquer comme noms de personnes # (complète les 9000+ stop-words intégrés) additional_stopwords: [] # Exemple : # - "votre_mot" # Villes supplémentaires à ne jamais matcher comme lieux # (complète les 115+ villes blacklistées intégrées) additional_villes_blacklist: [] # Exemple : # - "VOTRE_VILLE" # Labels DPI supplémentaires à ne jamais masquer comme noms # (complète data/dpi_labels_blacklist.txt) # Utiliser pour : titres de colonnes, en-têtes de sections, libellés de champs additional_dpi_labels: [] # Exemple : # - "Service" # - "Statut" # Termes en MAJUSCULES à ne jamais propager comme noms compagnons # (complète data/companion_blacklist.txt — spécialités, labos pharma, mots ambigus) additional_companion_blacklist: [] # Exemple : # - "VOTRE_SPECIALITE" flags: case_insensitive: true unicode_word_boundaries: true regex_engine: python