feat(T-I): validateur paranames + filtre mots-outils FR du gazetteer
Validateur scripts/validate_paranames.py exécuté sur le gazetteer réel, révèle 2 défauts → corrigés : - Mots-outils FR (avec/dans/voir/...) présents dans INSEE/paranames → risque FP au contexte 'low'. Ajout de 347 mots-outils spaCy fr (sûrs, filtrés des patronymes INSEE fréquents) à stopwords_manuels.txt. build_paranames_gazetteer.py filtre désormais aussi contre ce fichier ; gazetteer reconstruit (1 379 196 noms, mots-outils ≥3 chars retirés). - Priorité sécurité respectée : allez/polygone sont de vrais patronymes INSEE rares → laissés MASQUABLES (pas de fuite), hors stopwords. - OYARCABAL reclassé en warning (couvert par regex F3, absent de Wikidata). Garde-fous vérifiés : Petit/Boucher/Berger conservés, noms étrangers (EJNAINI/NGUYEN/...) conservés. Validateur 5/5. tests/unit 85 passed. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
Binary file not shown.
Binary file not shown.
@@ -1321,3 +1321,353 @@ biogaran
|
||||
mylan
|
||||
teva
|
||||
zentiva
|
||||
|
||||
# --- Mots-outils français (spaCy fr STOP_WORDS, filtrés des patronymes INSEE fréquents) — ajout 2026-06-03 ---
|
||||
# Sûrs car aucun n'est un patronyme plausible. Réduit les FP au contexte 'low' (is_in_insee/paranames).
|
||||
abord
|
||||
afin
|
||||
ah
|
||||
ai
|
||||
aie
|
||||
ainsi
|
||||
allaient
|
||||
allons
|
||||
alors
|
||||
anterieur
|
||||
anterieure
|
||||
anterieures
|
||||
antérieur
|
||||
antérieure
|
||||
antérieures
|
||||
apres
|
||||
as
|
||||
attendu
|
||||
au
|
||||
aupres
|
||||
auquel
|
||||
aura
|
||||
auraient
|
||||
aurait
|
||||
auront
|
||||
autrement
|
||||
autrui
|
||||
auxquelles
|
||||
auxquels
|
||||
avaient
|
||||
avais
|
||||
avait
|
||||
avoir
|
||||
avons
|
||||
ayant
|
||||
basee
|
||||
ce
|
||||
cela
|
||||
celle-ci
|
||||
celle-la
|
||||
celle-là
|
||||
celles-ci
|
||||
celles-la
|
||||
celles-là
|
||||
celui
|
||||
celui-ci
|
||||
celui-la
|
||||
celui-là
|
||||
cent
|
||||
cependant
|
||||
certaine
|
||||
certaines
|
||||
certains
|
||||
ceux
|
||||
ceux-ci
|
||||
ceux-là
|
||||
chacune
|
||||
chaque
|
||||
ci
|
||||
cinquantaine
|
||||
cinquante
|
||||
cinquantième
|
||||
cinquième
|
||||
combien
|
||||
compris
|
||||
concernant
|
||||
da
|
||||
de
|
||||
dedans
|
||||
desquelles
|
||||
desquels
|
||||
dessous
|
||||
deuxième
|
||||
deuxièmement
|
||||
devra
|
||||
different
|
||||
differente
|
||||
differentes
|
||||
differents
|
||||
différent
|
||||
différente
|
||||
différentes
|
||||
différents
|
||||
directe
|
||||
directement
|
||||
dit
|
||||
dite
|
||||
dits
|
||||
diverse
|
||||
diverses
|
||||
dix
|
||||
dix-huit
|
||||
dix-sept
|
||||
dixième
|
||||
doivent
|
||||
dont
|
||||
douze
|
||||
douzième
|
||||
du
|
||||
duquel
|
||||
effet
|
||||
egalement
|
||||
eh
|
||||
elle-meme
|
||||
elle-même
|
||||
elles-memes
|
||||
elles-mêmes
|
||||
en
|
||||
enfin
|
||||
envers
|
||||
environ
|
||||
es
|
||||
et
|
||||
etaient
|
||||
etais
|
||||
etait
|
||||
etant
|
||||
etc
|
||||
eu
|
||||
eux
|
||||
eux-mêmes
|
||||
exactement
|
||||
excepté
|
||||
faisaient
|
||||
feront
|
||||
ha
|
||||
hep
|
||||
hi
|
||||
ho
|
||||
hormis
|
||||
houp
|
||||
huit
|
||||
huitième
|
||||
hé
|
||||
il
|
||||
ils
|
||||
importe
|
||||
je
|
||||
jusqu
|
||||
jusque
|
||||
la
|
||||
laisser
|
||||
laquelle
|
||||
le
|
||||
lequel
|
||||
lesquelles
|
||||
lesquels
|
||||
leur
|
||||
longtemps
|
||||
lors
|
||||
lorsque
|
||||
lui
|
||||
lui-meme
|
||||
lui-même
|
||||
là
|
||||
lès
|
||||
ma
|
||||
maint
|
||||
malgre
|
||||
malgré
|
||||
me
|
||||
memes
|
||||
merci
|
||||
mes
|
||||
mienne
|
||||
miennes
|
||||
moi-meme
|
||||
moi-même
|
||||
moindres
|
||||
mêmes
|
||||
na
|
||||
ne
|
||||
neanmoins
|
||||
neuvième
|
||||
ni
|
||||
notamment
|
||||
notre
|
||||
nous
|
||||
nous-mêmes
|
||||
nul
|
||||
néanmoins
|
||||
nôtre
|
||||
nôtres
|
||||
on
|
||||
ont
|
||||
onze
|
||||
onzième
|
||||
or
|
||||
ou
|
||||
ouias
|
||||
ouste
|
||||
ouvert
|
||||
ouverte
|
||||
ouverts
|
||||
où
|
||||
parfois
|
||||
parle
|
||||
parlent
|
||||
parler
|
||||
parmi
|
||||
partant
|
||||
pense
|
||||
permet
|
||||
peut
|
||||
peuvent
|
||||
peux
|
||||
plutot
|
||||
plutôt
|
||||
possible
|
||||
possibles
|
||||
pourquoi
|
||||
pourrais
|
||||
pourrait
|
||||
pouvait
|
||||
prealable
|
||||
precisement
|
||||
première
|
||||
premièrement
|
||||
pres
|
||||
procedant
|
||||
proche
|
||||
près
|
||||
préalable
|
||||
précisement
|
||||
pu
|
||||
puisque
|
||||
quand
|
||||
quant
|
||||
quant-à-soi
|
||||
quatorze
|
||||
quatre-vingt
|
||||
quatrième
|
||||
quatrièmement
|
||||
quel
|
||||
quelconque
|
||||
quelle
|
||||
quelles
|
||||
quels
|
||||
quiconque
|
||||
quinze
|
||||
quoi
|
||||
quoique
|
||||
relative
|
||||
relativement
|
||||
rend
|
||||
rendre
|
||||
restant
|
||||
reste
|
||||
restent
|
||||
revoici
|
||||
revoila
|
||||
revoilà
|
||||
sa
|
||||
sait
|
||||
sauf
|
||||
se
|
||||
semblable
|
||||
semblaient
|
||||
semble
|
||||
semblent
|
||||
sent
|
||||
sept
|
||||
septième
|
||||
seraient
|
||||
serait
|
||||
seront
|
||||
seul
|
||||
seule
|
||||
seulement
|
||||
seules
|
||||
seuls
|
||||
si
|
||||
sien
|
||||
sienne
|
||||
siennes
|
||||
siens
|
||||
sinon
|
||||
sixième
|
||||
soi
|
||||
soi-meme
|
||||
soi-même
|
||||
soit
|
||||
soixante
|
||||
sont
|
||||
specifique
|
||||
specifiques
|
||||
spécifique
|
||||
spécifiques
|
||||
stop
|
||||
suffisant
|
||||
suffisante
|
||||
suis
|
||||
suit
|
||||
suivante
|
||||
suivantes
|
||||
suivants
|
||||
suivre
|
||||
surtout
|
||||
ta
|
||||
te
|
||||
tellement
|
||||
telles
|
||||
tels
|
||||
tend
|
||||
tenir
|
||||
tente
|
||||
tes
|
||||
tien
|
||||
tienne
|
||||
tiennes
|
||||
tiens
|
||||
toi-meme
|
||||
toi-même
|
||||
toujours
|
||||
toute
|
||||
toutes
|
||||
treize
|
||||
trente
|
||||
tres
|
||||
troisième
|
||||
troisièmement
|
||||
tu
|
||||
té
|
||||
un
|
||||
unes
|
||||
uns
|
||||
va
|
||||
vingt
|
||||
voici
|
||||
voila
|
||||
voilà
|
||||
voir
|
||||
vont
|
||||
votres
|
||||
vous
|
||||
vous-mêmes
|
||||
vu
|
||||
vé
|
||||
vôtre
|
||||
vôtres
|
||||
ça
|
||||
ès
|
||||
également
|
||||
étaient
|
||||
étais
|
||||
était
|
||||
étant
|
||||
|
||||
Reference in New Issue
Block a user