feat: externalisation des listes — stop-words et villes modifiables sans code
Toutes les listes de règles sont maintenant modifiables sans toucher au code Python : Fichiers de données (data/) : - stopwords_manuels.txt : 1307 termes médicaux/techniques - villes_blacklist.txt : 117 communes à ne pas matcher - medicaments_stopwords.txt : 7312 médicaments BDPM (existant) - Chargés automatiquement au démarrage Config YAML (dictionnaires.yml) : - additional_stopwords : mots supplémentaires par établissement - additional_villes_blacklist : villes supplémentaires - whitelist_phrases : phrases à ne jamais anonymiser - force_mask_terms : mots à toujours masquer Chaîne de chargement : code dur → fichiers data/ → YAML config Les 3 niveaux se cumulent (union). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -60,6 +60,18 @@ whitelist_phrases:
|
||||
- "date de sortie"
|
||||
- "date d'admission"
|
||||
- "code postal"
|
||||
# Mots supplémentaires à ne jamais masquer comme noms de personnes
|
||||
# (complète les 9000+ stop-words intégrés)
|
||||
additional_stopwords: []
|
||||
# Exemple :
|
||||
# - "votre_mot"
|
||||
|
||||
# Villes supplémentaires à ne jamais matcher comme lieux
|
||||
# (complète les 115+ villes blacklistées intégrées)
|
||||
additional_villes_blacklist: []
|
||||
# Exemple :
|
||||
# - "VOTRE_VILLE"
|
||||
|
||||
flags:
|
||||
case_insensitive: true
|
||||
unicode_word_boundaries: true
|
||||
|
||||
Reference in New Issue
Block a user