|
|
c110de4a2e
|
feat(T-I): validateur paranames + filtre mots-outils FR du gazetteer
Validateur scripts/validate_paranames.py exécuté sur le gazetteer réel,
révèle 2 défauts → corrigés :
- Mots-outils FR (avec/dans/voir/...) présents dans INSEE/paranames →
risque FP au contexte 'low'. Ajout de 347 mots-outils spaCy fr (sûrs,
filtrés des patronymes INSEE fréquents) à stopwords_manuels.txt.
build_paranames_gazetteer.py filtre désormais aussi contre ce fichier ;
gazetteer reconstruit (1 379 196 noms, mots-outils ≥3 chars retirés).
- Priorité sécurité respectée : allez/polygone sont de vrais patronymes
INSEE rares → laissés MASQUABLES (pas de fuite), hors stopwords.
- OYARCABAL reclassé en warning (couvert par regex F3, absent de Wikidata).
Garde-fous vérifiés : Petit/Boucher/Berger conservés, noms étrangers
(EJNAINI/NGUYEN/...) conservés. Validateur 5/5. tests/unit 85 passed.
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
|
2026-06-03 11:20:21 +02:00 |
|