Suite aux fixes #1-5 (entjur FINESS, mono-mots distinctifs, énumérations ville, RE_HOPITAL_VILLE ALL-CAPS), 11 entrées du YAML sont devenues redondantes avec les détections automatiques. Avant : 14 force_mask_terms + 4 force_mask_regex Après : 4 force_mask_terms + 1 force_mask_regex Retiré (couvert par gazetteers/regex) : - CENTRE HOSPITALIER COTE BASQUE (et variantes) → ETAB via RE_HOPITAL_VILLE - POLYCLINIQUE COTE BASQUE SUD (et variantes accentuées) → ETAB via RE_HOPITAL_VILLE - 640780417 (entjur CHCB) → FINESS_NUMBERS après fix #1 - BAYONNE, BAYONNE CEDEX → VILLE via gazetteer + énumérations + suffixe CEDEX - 64109 → CODE_POSTAL via regex (capture maintenant "64109 BAYONNE CEDEX" en bloc) - LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART → ETAB via AC FINESS (mono-mots distinctifs) - regex Centre Hospitalier / Polyclinique Côte Basque → fix #5 RE_HOPITAL_VILLE - regex [Ee]mbruns → fix #3 mono_mots_distinctifs.txt Conservé (irréductible local ou politique métier) : - CHCB (sigle local non référencé FINESS) - 'Dates du séjour :' (libellé administratif) - CONCERTATION (mention RCP — politique métier) - LABORATOIRE de BIOLOGIE MEDICALE (libellé administratif) - regex adresse 13 Avenue Interne J. LOEB (filet, AC FINESS adresses suffit) Validation sur trackare-18007562 : - Avant : 122 hits (dont 7 force_term/force_regex) - Après : 119 hits — disparition des doublons, capture améliorée (ex: "64109 BAYONNE CEDEX" capturé en bloc CODE_POSTAL au lieu de 3 hits séparés) - Couverture identique : CENTRE HOSPITALIER, COTE BASQUE, BAYONNE, 64109 toujours masqués Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2.6 KiB
2.6 KiB