feat: externalisation des listes — stop-words et villes modifiables sans code
Toutes les listes de règles sont maintenant modifiables sans toucher au code Python : Fichiers de données (data/) : - stopwords_manuels.txt : 1307 termes médicaux/techniques - villes_blacklist.txt : 117 communes à ne pas matcher - medicaments_stopwords.txt : 7312 médicaments BDPM (existant) - Chargés automatiquement au démarrage Config YAML (dictionnaires.yml) : - additional_stopwords : mots supplémentaires par établissement - additional_villes_blacklist : villes supplémentaires - whitelist_phrases : phrases à ne jamais anonymiser - force_mask_terms : mots à toujours masquer Chaîne de chargement : code dur → fichiers data/ → YAML config Les 3 niveaux se cumulent (union). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
1311
data/stopwords_manuels.txt
Normal file
1311
data/stopwords_manuels.txt
Normal file
File diff suppressed because it is too large
Load Diff
121
data/villes_blacklist.txt
Normal file
121
data/villes_blacklist.txt
Normal file
@@ -0,0 +1,121 @@
|
||||
# Villes/communes à ne jamais matcher comme noms de lieux
|
||||
# (homonymes de mots courants, parties du corps, etc.)
|
||||
# Total : 117 entrées
|
||||
|
||||
AGEN
|
||||
AIRE
|
||||
ALBI
|
||||
ANNE
|
||||
AUCH
|
||||
BARRES
|
||||
BEAUNE
|
||||
BILLE
|
||||
BLOIS
|
||||
BOIS
|
||||
BOURG
|
||||
BRAS
|
||||
BREST
|
||||
CENTRE
|
||||
CERGY
|
||||
CHAISE
|
||||
CHARGE
|
||||
COEUR
|
||||
CONTRE
|
||||
CORPS
|
||||
COU
|
||||
COURANT
|
||||
COURS
|
||||
CREIL
|
||||
CROIX
|
||||
DOLE
|
||||
DOS
|
||||
EST
|
||||
EUROPE
|
||||
EVIAN
|
||||
FAUX
|
||||
FOIX
|
||||
FORT
|
||||
FOSSES
|
||||
FRANCE
|
||||
GARDES
|
||||
GIEN
|
||||
GIVET
|
||||
GRAND
|
||||
GRAY
|
||||
HYERES
|
||||
ISLE
|
||||
JEAN
|
||||
JOUE
|
||||
LACS
|
||||
LAON
|
||||
LENS
|
||||
LIGNE
|
||||
LIGNES
|
||||
LONG
|
||||
LUNEL
|
||||
LURE
|
||||
MAISON
|
||||
MARCHE
|
||||
MARIE
|
||||
MARS
|
||||
MARSA
|
||||
MAURE
|
||||
MEAUX
|
||||
MENDE
|
||||
MENTON
|
||||
MERE
|
||||
MONT
|
||||
MORET
|
||||
MOULIN
|
||||
MURET
|
||||
MURS
|
||||
Médecin courant
|
||||
NICE
|
||||
NORD
|
||||
NUITS
|
||||
ONDRES
|
||||
ORANGE
|
||||
OUEST
|
||||
OUST
|
||||
PARIS
|
||||
PAUL
|
||||
PIERRE
|
||||
PLACE
|
||||
PLAN
|
||||
PONT
|
||||
PORT
|
||||
PREY
|
||||
PRISON
|
||||
PUITS
|
||||
QUATRE
|
||||
RANS
|
||||
RECY
|
||||
REDON
|
||||
REZE
|
||||
RICHE
|
||||
ROMANS
|
||||
ROUGE
|
||||
SAINT
|
||||
SALLE
|
||||
SALON
|
||||
SARE
|
||||
SEIN
|
||||
SENS
|
||||
SERVICE
|
||||
SETE
|
||||
SIGNES
|
||||
SORE
|
||||
SOURCE
|
||||
SUD
|
||||
TOURS
|
||||
TRANS
|
||||
VALLEE
|
||||
VAUX
|
||||
VEBRE
|
||||
VERS
|
||||
VERT
|
||||
VIENNE
|
||||
VILLE
|
||||
VIRE
|
||||
VITRE
|
||||
prurit invalidant (COU, décolleté)
|
||||
Reference in New Issue
Block a user