feat(finess): whitelist de mono-mots distinctifs courts (EMBRUNS, etc.)

Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour
éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans
etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML
(LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns).

Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist
curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle
(un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot
< 10 chars uniquement s'il est dans cette whitelist.

Initialisation : embruns, embrun (documents CHCB "Les Embruns").

Validation :
- _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul"
- Pas de régression sur trackare-18007562 (122 hits)

Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS /
EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-04-15 09:35:16 +02:00
parent fd95ae5f2a
commit e6f3853426
2 changed files with 34 additions and 8 deletions

View File

@@ -0,0 +1,11 @@
# Mono-mots FINESS considérés comme distinctifs malgré leur longueur < 10 chars
# Permet au matcher Aho-Corasick d'accepter des noms d'établissements courts
# qui sont dans etablissements_distinctifs.txt mais filtrés par le seuil.
#
# ⚠ Ajouter uniquement des mots suffisamment RARES pour éviter les faux positifs
# (ex: "embruns" rare en français, OK — "parc", "jardin" trop génériques, NON).
#
# Un mot par ligne, lowercase, sans accents. Lignes vides et # ignorées.
embruns
embrun