Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML (LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns). Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle (un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot < 10 chars uniquement s'il est dans cette whitelist. Initialisation : embruns, embrun (documents CHCB "Les Embruns"). Validation : - _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul" - Pas de régression sur trackare-18007562 (122 hits) Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS / EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
499 B
499 B