chore(yaml): nettoyer force_mask_terms — déléguer aux gazetteers nationaux
Suite aux fixes #1-5 (entjur FINESS, mono-mots distinctifs, énumérations ville, RE_HOPITAL_VILLE ALL-CAPS), 11 entrées du YAML sont devenues redondantes avec les détections automatiques. Avant : 14 force_mask_terms + 4 force_mask_regex Après : 4 force_mask_terms + 1 force_mask_regex Retiré (couvert par gazetteers/regex) : - CENTRE HOSPITALIER COTE BASQUE (et variantes) → ETAB via RE_HOPITAL_VILLE - POLYCLINIQUE COTE BASQUE SUD (et variantes accentuées) → ETAB via RE_HOPITAL_VILLE - 640780417 (entjur CHCB) → FINESS_NUMBERS après fix #1 - BAYONNE, BAYONNE CEDEX → VILLE via gazetteer + énumérations + suffixe CEDEX - 64109 → CODE_POSTAL via regex (capture maintenant "64109 BAYONNE CEDEX" en bloc) - LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART → ETAB via AC FINESS (mono-mots distinctifs) - regex Centre Hospitalier / Polyclinique Côte Basque → fix #5 RE_HOPITAL_VILLE - regex [Ee]mbruns → fix #3 mono_mots_distinctifs.txt Conservé (irréductible local ou politique métier) : - CHCB (sigle local non référencé FINESS) - 'Dates du séjour :' (libellé administratif) - CONCERTATION (mention RCP — politique métier) - LABORATOIRE de BIOLOGIE MEDICALE (libellé administratif) - regex adresse 13 Avenue Interne J. LOEB (filet, AC FINESS adresses suffit) Validation sur trackare-18007562 : - Avant : 122 hits (dont 7 force_term/force_regex) - Après : 119 hits — disparition des doublons, capture améliorée (ex: "64109 BAYONNE CEDEX" capturé en bloc CODE_POSTAL au lieu de 3 hits séparés) - Couverture identique : CENTRE HOSPITALIER, COTE BASQUE, BAYONNE, 64109 toujours masqués Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -15,26 +15,17 @@ whitelist:
|
|||||||
- Praticien conseil
|
- Praticien conseil
|
||||||
org_gpe_keep: false
|
org_gpe_keep: false
|
||||||
blacklist:
|
blacklist:
|
||||||
|
# Sigles et libellés propres à l'établissement non couverts par les gazetteers
|
||||||
|
# nationaux (FINESS / INSEE / BDPM). Évitez d'ajouter ici des noms d'hôpitaux,
|
||||||
|
# villes, codes postaux ou numéros FINESS — ils sont déjà détectés automatiquement.
|
||||||
force_mask_terms:
|
force_mask_terms:
|
||||||
- CENTRE HOSPITALIER COTE BASQUE
|
- CHCB # Sigle local non référencé FINESS
|
||||||
- CENTRE HOSPITALIER DE LA COTE BASQUE
|
- 'Dates du séjour :' # Libellé administratif (politique masquage)
|
||||||
- POLYCLINIQUE COTE BASQUE SUD
|
- CONCERTATION # Mention de RCP (politique métier)
|
||||||
- POLYCLINIQUE CÔTE BASQUE SUD
|
- LABORATOIRE de BIOLOGIE MEDICALE # Libellé administratif générique
|
||||||
- CHCB
|
|
||||||
- '640780417'
|
|
||||||
- 'Dates du séjour :'
|
|
||||||
- CONCERTATION
|
|
||||||
- BAYONNE CEDEX
|
|
||||||
- BAYONNE
|
|
||||||
- '64109'
|
|
||||||
- LABORATOIRE de BIOLOGIE MEDICALE
|
|
||||||
- REED LES EMBRUNS
|
|
||||||
- LES EMBRUNS
|
|
||||||
- EMBRUNS BIDART
|
|
||||||
force_mask_regex:
|
force_mask_regex:
|
||||||
- '[Ee]mbruns'
|
# Adresse précise du CHCB — couverte par l'AC FINESS adresses mais on garde
|
||||||
- 'Centre\s+Hospitalier\s+(?:de\s+(?:la\s+)?)?C[oôÔ]te\s+Basque'
|
# la regex en filet de sécurité (encodages PDF, espaces non standards).
|
||||||
- 'Polyclinique\s+C[oôÔ]te\s+Basque\s+Sud'
|
|
||||||
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
|
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
|
||||||
kv_labels_preserve:
|
kv_labels_preserve:
|
||||||
- FINESS
|
- FINESS
|
||||||
|
|||||||
Reference in New Issue
Block a user