Files
anonymisation/config/hospital_stopwords.yml
Domi31tls 6806aee587 feat: Filtre hospitalier pour éliminer les faux positifs
- Ajout config/hospital_stopwords.yml avec adresses/téléphones hôpitaux
- Ajout detectors/hospital_filter.py pour filtrer les FP
- Intégration dans anonymizer_core_refactored_onnx.py
- Test sur document: 40 -> 32 détections (-8 FP)
- Élimine: adresses hôpitaux, codes postaux CEDEX, épisodes dans noms de fichiers
2026-03-02 11:21:48 +01:00

75 lines
1.9 KiB
YAML

# Liste des informations hospitalières à ne PAS anonymiser
# Ces informations sont publiques et ne constituent pas des données personnelles
# Adresses d'hôpitaux et établissements de santé
hospital_addresses:
- "13, Avenue de l'Interne J"
- "13 Avenue de l'Interne J"
- "13 Av. de l'Interne Jacques Loeb"
- "13 avenue de l'"
- "LOEB BP 8"
- "4, AVENUE DE TRÉVILLE"
- "4 AVENUE DE TRÉVILLE"
# Codes postaux d'établissements (avec CEDEX)
hospital_postal_codes:
- "64109 BAYONNE CEDEX"
- "64109 BAYONNE Cedex"
- "33076 BORDEAUX CEDEX"
# Villes avec CEDEX (indique un établissement)
hospital_cities:
- "BAYONNE CEDEX"
- "BORDEAUX CEDEX"
# Téléphones d'hôpitaux (préfixes 05 59 44 = CH Côte Basque)
hospital_phones:
- "05 59 44 35 35"
- "05 59 63 35 88"
- "05.59.44.37.33"
- "05.59.44.37.32"
- "05.59.44.37.42"
- "05.59.44.38.62"
- "05.59.44.37.74"
- "05.33.78.81.89"
- "05.59.44.35.49"
- "05.59.44.37.25"
- "05.59.44.37.22"
- "05.59.44.37.29"
- "05.59.44.37.23"
- "05.59.44.38.44"
- "05.59.44.35.69"
- "05.59.44.35.30"
- "05.59.44.35.06"
- "05.59.44.39.24"
- "05.59.44.37.07"
- "05.59.44.31.39"
- "05.59.44.37.35"
- "05.59.44.37.46"
- "05.59.44.37.39"
- "05.59.44.35.05"
- "0559443674"
# Patterns de téléphones hospitaliers (regex)
hospital_phone_patterns:
- "^05\\.?59\\.?44\\.?" # CH Côte Basque
- "^05\\.?33\\.?78\\.?" # Autre établissement
# Termes médicaux/anatomiques souvent confondus avec des villes
anatomical_terms:
- "DROIT"
- "GAUCHE"
- "SUPERIEUR"
- "INFERIEUR"
- "ANTERIEUR"
- "POSTERIEUR"
- "LATERAL"
- "MEDIAL"
- "PROXIMAL"
- "DISTAL"
# Patterns d'épisodes à ignorer (numéros dans les noms de fichiers)
# Ces numéros apparaissent dans les métadonnées mais pas dans le contenu patient
episode_filename_patterns:
- "trackare-\\d+-\\d+" # Format: trackare-IPP-EPISODE