- Ajout config/hospital_stopwords.yml avec adresses/téléphones hôpitaux - Ajout detectors/hospital_filter.py pour filtrer les FP - Intégration dans anonymizer_core_refactored_onnx.py - Test sur document: 40 -> 32 détections (-8 FP) - Élimine: adresses hôpitaux, codes postaux CEDEX, épisodes dans noms de fichiers
75 lines
1.9 KiB
YAML
75 lines
1.9 KiB
YAML
# Liste des informations hospitalières à ne PAS anonymiser
|
|
# Ces informations sont publiques et ne constituent pas des données personnelles
|
|
|
|
# Adresses d'hôpitaux et établissements de santé
|
|
hospital_addresses:
|
|
- "13, Avenue de l'Interne J"
|
|
- "13 Avenue de l'Interne J"
|
|
- "13 Av. de l'Interne Jacques Loeb"
|
|
- "13 avenue de l'"
|
|
- "LOEB BP 8"
|
|
- "4, AVENUE DE TRÉVILLE"
|
|
- "4 AVENUE DE TRÉVILLE"
|
|
|
|
# Codes postaux d'établissements (avec CEDEX)
|
|
hospital_postal_codes:
|
|
- "64109 BAYONNE CEDEX"
|
|
- "64109 BAYONNE Cedex"
|
|
- "33076 BORDEAUX CEDEX"
|
|
|
|
# Villes avec CEDEX (indique un établissement)
|
|
hospital_cities:
|
|
- "BAYONNE CEDEX"
|
|
- "BORDEAUX CEDEX"
|
|
|
|
# Téléphones d'hôpitaux (préfixes 05 59 44 = CH Côte Basque)
|
|
hospital_phones:
|
|
- "05 59 44 35 35"
|
|
- "05 59 63 35 88"
|
|
- "05.59.44.37.33"
|
|
- "05.59.44.37.32"
|
|
- "05.59.44.37.42"
|
|
- "05.59.44.38.62"
|
|
- "05.59.44.37.74"
|
|
- "05.33.78.81.89"
|
|
- "05.59.44.35.49"
|
|
- "05.59.44.37.25"
|
|
- "05.59.44.37.22"
|
|
- "05.59.44.37.29"
|
|
- "05.59.44.37.23"
|
|
- "05.59.44.38.44"
|
|
- "05.59.44.35.69"
|
|
- "05.59.44.35.30"
|
|
- "05.59.44.35.06"
|
|
- "05.59.44.39.24"
|
|
- "05.59.44.37.07"
|
|
- "05.59.44.31.39"
|
|
- "05.59.44.37.35"
|
|
- "05.59.44.37.46"
|
|
- "05.59.44.37.39"
|
|
- "05.59.44.35.05"
|
|
- "0559443674"
|
|
|
|
# Patterns de téléphones hospitaliers (regex)
|
|
hospital_phone_patterns:
|
|
- "^05\\.?59\\.?44\\.?" # CH Côte Basque
|
|
- "^05\\.?33\\.?78\\.?" # Autre établissement
|
|
|
|
# Termes médicaux/anatomiques souvent confondus avec des villes
|
|
anatomical_terms:
|
|
- "DROIT"
|
|
- "GAUCHE"
|
|
- "SUPERIEUR"
|
|
- "INFERIEUR"
|
|
- "ANTERIEUR"
|
|
- "POSTERIEUR"
|
|
- "LATERAL"
|
|
- "MEDIAL"
|
|
- "PROXIMAL"
|
|
- "DISTAL"
|
|
|
|
# Patterns d'épisodes à ignorer (numéros dans les noms de fichiers)
|
|
# Ces numéros apparaissent dans les métadonnées mais pas dans le contenu patient
|
|
episode_filename_patterns:
|
|
- "trackare-\\d+-\\d+" # Format: trackare-IPP-EPISODE
|