83769f6e63974d5749c3549d581470e2fb4b8591
Trois trous de détection identifiés par l'audit de règles :
1. Énumération "Bordeaux et Bayonne" / "Bordeaux, Bayonne, Biarritz" : la règle
contextuelle _RE_GEO_BEFORE n'acceptait que des déclencheurs directs (à, de,
hôpital de, urgences de…). Dans une énumération, la 2ème ville+ échappait.
Nouvelle passe 2 : propagation mutuelle entre hits AC adjacents liés par
" et " ou ", ". Itération à point fixe pour chaînes longues. Garde-fou :
chaque hit ≥ 5 lettres pour éviter FP sur communes courtes homonymes.
2. Code postal encore en chiffres : _RE_GEO_BEFORE n'acceptait que
[CODE_POSTAL] déjà masqué. Ajout de `\b\d{5}\s+` comme déclencheur pour
couvrir l'ordre dans lequel _mask_ville_gazetteers est appelée avant le
masquage du code postal.
3. Suffixe CEDEX : "BAYONNE CEDEX" capturait BAYONNE seul. Extension automatique
de la capture pour inclure " CEDEX" et " CEDEX N" adjacents.
Cas validés :
- "travaille à Bordeaux et Bayonne" → [VILLE] et [VILLE]
- "Régions : Bordeaux, Bayonne, Biarritz" → 3× [VILLE] (chaîne sans ancre)
- "64109 BAYONNE CEDEX" → [VILLE] (capture CEDEX inclus)
- "charge", "médecin et patient" → aucun FP
Non-régression : 122 hits sur trackare-18007562.
Après ce fix, on peut retirer BAYONNE, BAYONNE CEDEX du YAML force_mask_terms.
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete
L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.
Description
Languages
Python
98.2%
Batchfile
1%
PowerShell
0.5%
Shell
0.3%