- Token min length relevé de 2-3 → 4 chars (élimine FP EPO, IRC, SIB...) - Stop-words enrichis : acronymes médicaux 3 lettres, termes pharma, soins infirmiers - BDPM stop-words : ~7300 noms commerciaux + DCI/substances actives - Gazetteers adresses FINESS : 63K patterns Aho-Corasick (position-preserving normalization) - Filtre contextuel anatomique pour FINESS établissements - Nouvelles regex : RE_CIVILITE_COMMA_LIST, RE_EXTRACT_NOM_UTILISE, RE_EXTRACT_PRENOM, RE_NUM_EXAMEN_PATIENT, RE_ADRESSE_LIEU_DIT, RE_CIVILITE_INITIALE, Dr X.NOM - URLs complètes (RE_URL) + détection multiline - N° venue inversé (layout-aware) + EPISODE/NDA dans _CRITICAL_PII_TYPES - HospitalFilter désactivé pour ADRESSE/TEL/VILLE/EPISODE (identifient le patient) - Batch silver export parallélisé (multiprocessing spawn, N workers) - Seuil sur-masquage relevé à 8%, server.py enrichi (source regex/ner) - Blacklist villes : COURANT, PARIS ; contexte villes étendu (UHCD, spécialités) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
50 lines
1.0 KiB
YAML
50 lines
1.0 KiB
YAML
version: 1
|
|
encoding: utf-8
|
|
normalization: NFKC
|
|
whitelist:
|
|
sections_titres:
|
|
- DIM
|
|
- GHM
|
|
- GHS
|
|
- RUM
|
|
- COMPTE
|
|
- RENDU
|
|
- DIAGNOSTIC
|
|
noms_maj_excepts:
|
|
- Médecin DIM
|
|
- Praticien conseil
|
|
org_gpe_keep: false
|
|
blacklist:
|
|
force_mask_terms:
|
|
- CENTRE HOSPITALIER COTE BASQUE
|
|
- CENTRE HOSPITALIER DE LA COTE BASQUE
|
|
- POLYCLINIQUE COTE BASQUE SUD
|
|
- POLYCLINIQUE CÔTE BASQUE SUD
|
|
- CHCB
|
|
- '640780417'
|
|
- 'Dates du séjour :'
|
|
- CONCERTATION
|
|
- BAYONNE CEDEX
|
|
- BAYONNE
|
|
- '64109'
|
|
- LABORATOIRE de BIOLOGIE MEDICALE
|
|
force_mask_regex:
|
|
- 'Centre\s+Hospitalier\s+(?:de\s+(?:la\s+)?)?C[oôÔ]te\s+Basque'
|
|
- 'Polyclinique\s+C[oôÔ]te\s+Basque\s+Sud'
|
|
- '13\s*,?\s*Avenue\s+de\s+l.Interne\s+J\.?\s*LOEB\s+BP\s*\d+'
|
|
kv_labels_preserve:
|
|
- FINESS
|
|
- IPP
|
|
- N° OGC
|
|
- Etablissement
|
|
regex_overrides:
|
|
- name: OGC_court
|
|
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
|
|
placeholder: '[OGC]'
|
|
flags:
|
|
- IGNORECASE
|
|
flags:
|
|
case_insensitive: true
|
|
unicode_word_boundaries: true
|
|
regex_engine: python
|