La cross-validation NER (_cross_validate_name_candidates) gère désormais les décisions contextuelles nom/terme-médical. Les stop-words purement médicaux sont supprimés : - data/stopwords_manuels.txt : 1307 → 233 entrées (uniquement les mots ambigus qui sont aussi des noms/prénoms INSEE) - _MEDICAL_STOP_WORDS_SET hardcodé : ~400 → 80 entrées essentielles (mots courts, formes galéniques, titres hospitaliers) - Les enrichissements BDPM (~7300), edsnlp (~2000) et fichier externe sont conservés tels quels Score qualité inchangé : 100/100 (A+), 0 fuite, 0 faux positif. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
239 lines
1.6 KiB
Plaintext
239 lines
1.6 KiB
Plaintext
# Stop-words ambigus (aussi noms/prénoms INSEE)
|
|
# Ces mots sont à la fois des termes courants ET des noms de famille.
|
|
# La cross-validation NER + INSEE gère les cas ambigus.
|
|
# Total : 233 entrées
|
|
|
|
acide
|
|
ado
|
|
ains
|
|
ait
|
|
alat
|
|
alde
|
|
alerte
|
|
alfa
|
|
alim
|
|
alter
|
|
amp
|
|
ancien
|
|
angle
|
|
avis
|
|
balance
|
|
barreau
|
|
bas
|
|
basque
|
|
bassin
|
|
bax
|
|
bayonne
|
|
bic
|
|
bien
|
|
bijoux
|
|
bilan
|
|
bili
|
|
bille
|
|
bio
|
|
bloc
|
|
boisson
|
|
bon
|
|
bonne
|
|
bordeaux
|
|
bouche
|
|
bouchon
|
|
bouteille
|
|
bureau
|
|
cadre
|
|
cambo
|
|
capillaire
|
|
car
|
|
cart
|
|
cas
|
|
cases
|
|
cat
|
|
ces
|
|
cette
|
|
chef
|
|
cher
|
|
colle
|
|
comme
|
|
concha
|
|
confrere
|
|
confrère
|
|
courrier
|
|
court
|
|
crop
|
|
cure
|
|
côte
|
|
dans
|
|
dax
|
|
demain
|
|
demande
|
|
depuis
|
|
des
|
|
dessert
|
|
diet
|
|
diu
|
|
docteur
|
|
domaine
|
|
dose
|
|
dossier
|
|
douche
|
|
drain
|
|
droit
|
|
début
|
|
elim
|
|
elle
|
|
epp
|
|
escarre
|
|
est
|
|
face
|
|
fait
|
|
fer
|
|
feuillet
|
|
fils
|
|
fin
|
|
fines
|
|
flacon
|
|
fois
|
|
fort
|
|
forte
|
|
framboise
|
|
france
|
|
franche
|
|
fret
|
|
frère
|
|
gamma
|
|
gauche
|
|
germes
|
|
glace
|
|
gouttes
|
|
grancher
|
|
grand
|
|
hanche
|
|
haute
|
|
heure
|
|
hospitalier
|
|
hui
|
|
hôpital
|
|
ide
|
|
ira
|
|
ivo
|
|
jour
|
|
lever
|
|
lieu
|
|
lille
|
|
lyon
|
|
légère
|
|
maco
|
|
mais
|
|
maison
|
|
manger
|
|
marcher
|
|
marseille
|
|
masse
|
|
matin
|
|
message
|
|
mettre
|
|
midi
|
|
mode
|
|
moins
|
|
molles
|
|
mon
|
|
monsieur
|
|
montpellier
|
|
mylan
|
|
médecin
|
|
nantes
|
|
normal
|
|
nos
|
|
note
|
|
nouveau
|
|
nouvelle
|
|
oral
|
|
oui
|
|
pages
|
|
palais
|
|
pan
|
|
paris
|
|
pas
|
|
patient
|
|
pau
|
|
perlant
|
|
personne
|
|
peu
|
|
place
|
|
plaie
|
|
plus
|
|
poc
|
|
poche
|
|
pompe
|
|
pose
|
|
post
|
|
poste
|
|
pour
|
|
premier
|
|
profil
|
|
présent
|
|
puis
|
|
pôle
|
|
quartier
|
|
rappel
|
|
rares
|
|
ras
|
|
ren
|
|
renal
|
|
retour
|
|
route
|
|
rue
|
|
rénal
|
|
rés
|
|
sachet
|
|
saint
|
|
saint-palais
|
|
sandoz
|
|
sang
|
|
sanguine
|
|
sans
|
|
sante
|
|
santé
|
|
saos
|
|
selle
|
|
selles
|
|
selon
|
|
semaine
|
|
ser
|
|
signe
|
|
signes
|
|
signé
|
|
soir
|
|
sol
|
|
sommeil
|
|
son
|
|
sondes
|
|
sous
|
|
sud
|
|
suppo
|
|
sur
|
|
tap
|
|
tel
|
|
temps
|
|
tep
|
|
teva
|
|
thorax
|
|
total
|
|
toulouse
|
|
tous
|
|
tout
|
|
trou
|
|
trouve
|
|
très
|
|
une
|
|
vernis
|
|
vers
|
|
vessie
|
|
villa
|
|
vit
|
|
vitaux
|
|
vrac
|
|
wind
|
|
zen
|
|
zone
|