feat(finess): whitelist de mono-mots distinctifs courts (EMBRUNS, etc.)
Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML (LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns). Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle (un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot < 10 chars uniquement s'il est dans cette whitelist. Initialisation : embruns, embrun (documents CHCB "Les Embruns"). Validation : - _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul" - Pas de régression sur trackare-18007562 (122 hits) Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS / EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
11
data/finess/mono_mots_distinctifs.txt
Normal file
11
data/finess/mono_mots_distinctifs.txt
Normal file
@@ -0,0 +1,11 @@
|
||||
# Mono-mots FINESS considérés comme distinctifs malgré leur longueur < 10 chars
|
||||
# Permet au matcher Aho-Corasick d'accepter des noms d'établissements courts
|
||||
# qui sont dans etablissements_distinctifs.txt mais filtrés par le seuil.
|
||||
#
|
||||
# ⚠ Ajouter uniquement des mots suffisamment RARES pour éviter les faux positifs
|
||||
# (ex: "embruns" rare en français, OK — "parc", "jardin" trop génériques, NON).
|
||||
#
|
||||
# Un mot par ligne, lowercase, sans accents. Lignes vides et # ignorées.
|
||||
|
||||
embruns
|
||||
embrun
|
||||
Reference in New Issue
Block a user