version: 1 encoding: utf-8 normalization: NFKC whitelist: sections_titres: - DIM - GHM - GHS - RUM - COMPTE - RENDU - DIAGNOSTIC noms_maj_excepts: - Médecin DIM - Praticien conseil org_gpe_keep: false blacklist: force_mask_terms: - CENTRE HOSPITALIER COTE BASQUE - CENTRE HOSPITALIER DE LA COTE BASQUE - POLYCLINIQUE COTE BASQUE SUD - POLYCLINIQUE CÔTE BASQUE SUD - CHCB - '640780417' - 'Dates du séjour :' - CONCERTATION - BAYONNE CEDEX - BAYONNE - '64109' - LABORATOIRE de BIOLOGIE MEDICALE - REED LES EMBRUNS - LES EMBRUNS - EMBRUNS BIDART force_mask_regex: - '[Ee]mbruns' - 'Centre\s+Hospitalier\s+(?:de\s+(?:la\s+)?)?C[oôÔ]te\s+Basque' - 'Polyclinique\s+C[oôÔ]te\s+Basque\s+Sud' - '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+' kv_labels_preserve: - FINESS - IPP - N° OGC - Etablissement regex_overrides: - name: OGC_court pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b placeholder: '[OGC]' flags: - IGNORECASE # Phrases à ne JAMAIS anonymiser (faux positifs récurrents) # Ajouter ici les expressions qui sont masquées à tort. # La correspondance est insensible à la casse. whitelist_phrases: - "classification internationale" - "prise en charge" - "bas de contention" - "date de naissance" - "lieu de naissance" - "ville de résidence" - "date de sortie" - "date d'admission" - "code postal" # Mots supplémentaires à ne jamais masquer comme noms de personnes # (complète les 9000+ stop-words intégrés) additional_stopwords: [] # Exemple : # - "votre_mot" # Villes supplémentaires à ne jamais matcher comme lieux # (complète les 115+ villes blacklistées intégrées) additional_villes_blacklist: [] # Exemple : # - "VOTRE_VILLE" flags: case_insensitive: true unicode_word_boundaries: true regex_engine: python