e6f3853426d45ffb7833afa990b39bbdb9c8d09d
Le matcher Aho-Corasick FINESS rejetait tous les mono-mots < 10 chars pour éviter les faux positifs. Conséquence : EMBRUNS (7 chars), présent dans etablissements_distinctifs.txt, était ignoré et devait être forcé en YAML (LES EMBRUNS, REED LES EMBRUNS, EMBRUNS BIDART, regex [Ee]mbruns). Nouveau fichier data/finess/mono_mots_distinctifs.txt contenant la whitelist curée des mono-mots courts considérés comme distinctifs. Maintenance manuelle (un mot par ligne, commentaires autorisés). Le matcher accepte un mono-mot < 10 chars uniquement s'il est dans cette whitelist. Initialisation : embruns, embrun (documents CHCB "Les Embruns"). Validation : - _FINESS_AC matche maintenant "les embruns quelque part" et "embruns seul" - Pas de régression sur trackare-18007562 (122 hits) Après ce fix + futurs, on pourra retirer LES EMBRUNS / REED LES EMBRUNS / EMBRUNS BIDART et regex [Ee]mbruns de force_mask_terms du YAML. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete
L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.
Description
Languages
Python
98.2%
Batchfile
1%
PowerShell
0.5%
Shell
0.3%