Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML (LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns). Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle (un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot < 10 chars uniquement s'il est dans cette whitelist. Initialisation : embruns, embrun (documents CHCB "Les Embruns"). Validation : - _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul" - Pas de régression sur trackare-18007562 (122 hits) Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS / EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
12 lines
499 B
Plaintext
12 lines
499 B
Plaintext
# Mono-mots FINESS considérés comme distinctifs malgré leur longueur < 10 chars
|
|
# Permet au matcher Aho-Corasick d'accepter des noms d'établissements courts
|
|
# qui sont dans etablissements_distinctifs.txt mais filtrés par le seuil.
|
|
#
|
|
# ⚠ Ajouter uniquement des mots suffisamment RARES pour éviter les faux positifs
|
|
# (ex: "embruns" rare en français, OK — "parc", "jardin" trop génériques, NON).
|
|
#
|
|
# Un mot par ligne, lowercase, sans accents. Lignes vides et # ignorées.
|
|
|
|
embruns
|
|
embrun
|