feat(T-I): validateur paranames + filtre mots-outils FR du gazetteer

Validateur scripts/validate_paranames.py exécuté sur le gazetteer réel,
révèle 2 défauts → corrigés :

- Mots-outils FR (avec/dans/voir/...) présents dans INSEE/paranames →
  risque FP au contexte 'low'. Ajout de 347 mots-outils spaCy fr (sûrs,
  filtrés des patronymes INSEE fréquents) à stopwords_manuels.txt.
  build_paranames_gazetteer.py filtre désormais aussi contre ce fichier ;
  gazetteer reconstruit (1 379 196 noms, mots-outils ≥3 chars retirés).
- Priorité sécurité respectée : allez/polygone sont de vrais patronymes
  INSEE rares → laissés MASQUABLES (pas de fuite), hors stopwords.
- OYARCABAL reclassé en warning (couvert par regex F3, absent de Wikidata).

Garde-fous vérifiés : Petit/Boucher/Berger conservés, noms étrangers
(EJNAINI/NGUYEN/...) conservés. Validateur 5/5. tests/unit 85 passed.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-03 11:20:21 +02:00
parent 65d6c8c603
commit ae73abe65d
5 changed files with 528 additions and 7 deletions

Binary file not shown.

View File

@@ -1321,3 +1321,353 @@ biogaran
mylan
teva
zentiva
# --- Mots-outils français (spaCy fr STOP_WORDS, filtrés des patronymes INSEE fréquents) — ajout 2026-06-03 ---
# Sûrs car aucun n'est un patronyme plausible. Réduit les FP au contexte 'low' (is_in_insee/paranames).
abord
afin
ah
ai
aie
ainsi
allaient
allons
alors
anterieur
anterieure
anterieures
antérieur
antérieure
antérieures
apres
as
attendu
au
aupres
auquel
aura
auraient
aurait
auront
autrement
autrui
auxquelles
auxquels
avaient
avais
avait
avoir
avons
ayant
basee
ce
cela
celle-ci
celle-la
celle-là
celles-ci
celles-la
celles-là
celui
celui-ci
celui-la
celui-là
cent
cependant
certaine
certaines
certains
ceux
ceux-ci
ceux-là
chacune
chaque
ci
cinquantaine
cinquante
cinquantième
cinquième
combien
compris
concernant
da
de
dedans
desquelles
desquels
dessous
deuxième
deuxièmement
devra
different
differente
differentes
differents
différent
différente
différentes
différents
directe
directement
dit
dite
dits
diverse
diverses
dix
dix-huit
dix-sept
dixième
doivent
dont
douze
douzième
du
duquel
effet
egalement
eh
elle-meme
elle-même
elles-memes
elles-mêmes
en
enfin
envers
environ
es
et
etaient
etais
etait
etant
etc
eu
eux
eux-mêmes
exactement
excepté
faisaient
feront
ha
hep
hi
ho
hormis
houp
huit
huitième
il
ils
importe
je
jusqu
jusque
la
laisser
laquelle
le
lequel
lesquelles
lesquels
leur
longtemps
lors
lorsque
lui
lui-meme
lui-même
lès
ma
maint
malgre
malgré
me
memes
merci
mes
mienne
miennes
moi-meme
moi-même
moindres
mêmes
na
ne
neanmoins
neuvième
ni
notamment
notre
nous
nous-mêmes
nul
néanmoins
nôtre
nôtres
on
ont
onze
onzième
or
ou
ouias
ouste
ouvert
ouverte
ouverts
parfois
parle
parlent
parler
parmi
partant
pense
permet
peut
peuvent
peux
plutot
plutôt
possible
possibles
pourquoi
pourrais
pourrait
pouvait
prealable
precisement
première
premièrement
pres
procedant
proche
près
préalable
précisement
pu
puisque
quand
quant
quant-à-soi
quatorze
quatre-vingt
quatrième
quatrièmement
quel
quelconque
quelle
quelles
quels
quiconque
quinze
quoi
quoique
relative
relativement
rend
rendre
restant
reste
restent
revoici
revoila
revoilà
sa
sait
sauf
se
semblable
semblaient
semble
semblent
sent
sept
septième
seraient
serait
seront
seul
seule
seulement
seules
seuls
si
sien
sienne
siennes
siens
sinon
sixième
soi
soi-meme
soi-même
soit
soixante
sont
specifique
specifiques
spécifique
spécifiques
stop
suffisant
suffisante
suis
suit
suivante
suivantes
suivants
suivre
surtout
ta
te
tellement
telles
tels
tend
tenir
tente
tes
tien
tienne
tiennes
tiens
toi-meme
toi-même
toujours
toute
toutes
treize
trente
tres
troisième
troisièmement
tu
un
unes
uns
va
vingt
voici
voila
voilà
voir
vont
votres
vous
vous-mêmes
vu
vôtre
vôtres
ça
ès
également
étaient
étais
était
étant