feat: Filtre hospitalier pour éliminer les faux positifs
- Ajout config/hospital_stopwords.yml avec adresses/téléphones hôpitaux - Ajout detectors/hospital_filter.py pour filtrer les FP - Intégration dans anonymizer_core_refactored_onnx.py - Test sur document: 40 -> 32 détections (-8 FP) - Élimine: adresses hôpitaux, codes postaux CEDEX, épisodes dans noms de fichiers
This commit is contained in:
74
config/hospital_stopwords.yml
Normal file
74
config/hospital_stopwords.yml
Normal file
@@ -0,0 +1,74 @@
|
||||
# Liste des informations hospitalières à ne PAS anonymiser
|
||||
# Ces informations sont publiques et ne constituent pas des données personnelles
|
||||
|
||||
# Adresses d'hôpitaux et établissements de santé
|
||||
hospital_addresses:
|
||||
- "13, Avenue de l'Interne J"
|
||||
- "13 Avenue de l'Interne J"
|
||||
- "13 Av. de l'Interne Jacques Loeb"
|
||||
- "13 avenue de l'"
|
||||
- "LOEB BP 8"
|
||||
- "4, AVENUE DE TRÉVILLE"
|
||||
- "4 AVENUE DE TRÉVILLE"
|
||||
|
||||
# Codes postaux d'établissements (avec CEDEX)
|
||||
hospital_postal_codes:
|
||||
- "64109 BAYONNE CEDEX"
|
||||
- "64109 BAYONNE Cedex"
|
||||
- "33076 BORDEAUX CEDEX"
|
||||
|
||||
# Villes avec CEDEX (indique un établissement)
|
||||
hospital_cities:
|
||||
- "BAYONNE CEDEX"
|
||||
- "BORDEAUX CEDEX"
|
||||
|
||||
# Téléphones d'hôpitaux (préfixes 05 59 44 = CH Côte Basque)
|
||||
hospital_phones:
|
||||
- "05 59 44 35 35"
|
||||
- "05 59 63 35 88"
|
||||
- "05.59.44.37.33"
|
||||
- "05.59.44.37.32"
|
||||
- "05.59.44.37.42"
|
||||
- "05.59.44.38.62"
|
||||
- "05.59.44.37.74"
|
||||
- "05.33.78.81.89"
|
||||
- "05.59.44.35.49"
|
||||
- "05.59.44.37.25"
|
||||
- "05.59.44.37.22"
|
||||
- "05.59.44.37.29"
|
||||
- "05.59.44.37.23"
|
||||
- "05.59.44.38.44"
|
||||
- "05.59.44.35.69"
|
||||
- "05.59.44.35.30"
|
||||
- "05.59.44.35.06"
|
||||
- "05.59.44.39.24"
|
||||
- "05.59.44.37.07"
|
||||
- "05.59.44.31.39"
|
||||
- "05.59.44.37.35"
|
||||
- "05.59.44.37.46"
|
||||
- "05.59.44.37.39"
|
||||
- "05.59.44.35.05"
|
||||
- "0559443674"
|
||||
|
||||
# Patterns de téléphones hospitaliers (regex)
|
||||
hospital_phone_patterns:
|
||||
- "^05\\.?59\\.?44\\.?" # CH Côte Basque
|
||||
- "^05\\.?33\\.?78\\.?" # Autre établissement
|
||||
|
||||
# Termes médicaux/anatomiques souvent confondus avec des villes
|
||||
anatomical_terms:
|
||||
- "DROIT"
|
||||
- "GAUCHE"
|
||||
- "SUPERIEUR"
|
||||
- "INFERIEUR"
|
||||
- "ANTERIEUR"
|
||||
- "POSTERIEUR"
|
||||
- "LATERAL"
|
||||
- "MEDIAL"
|
||||
- "PROXIMAL"
|
||||
- "DISTAL"
|
||||
|
||||
# Patterns d'épisodes à ignorer (numéros dans les noms de fichiers)
|
||||
# Ces numéros apparaissent dans les métadonnées mais pas dans le contenu patient
|
||||
episode_filename_patterns:
|
||||
- "trackare-\\d+-\\d+" # Format: trackare-IPP-EPISODE
|
||||
Reference in New Issue
Block a user