8e43d8d1ae0df5e474d1340df41b93aa7ac145c3
Audit manuel après batch QC : 20 occurrences de "Dr Ute" dans trackare-03020576-23175616 non masquées. Audit jsonl confirme : 0 hit pour "Ute" → pas détecté. Cause : _add_candidate (deux implémentations, lignes 1908 et 2225) filtrait len(token) < 4, empêchant la création du NameCandidate pour "Ute" (3 chars) même avec bypass_stopwords=True. La cross-validation écrasait alors all_names avec validated_names (vide pour Ute), et _apply_extracted_names ne recevait donc jamais Ute. Le commit 2f79f7c avait fait le fix uniquement dans _apply_extracted_names. Fix incomplet : le filtre amont _add_candidate rejetait avant. Correctif symétrique sur _add_candidate (×2) + _add_tokens_force_first : accepter 3 chars UNIQUEMENT si bypass=True (contexte Dr/Mme) ET majuscule initiale ET alpha pur. 2 chars reste filtré (initiales ambigues). Validation : - "DR. DURANTEAU Ute" matche bien RE_EXTRACT_DR_DEST et capture "DURANTEAU Ute" - Audit produit "Ute DURANTEAU" en bloc + "DURANTEAU" seul (41 hits total) - PDF redacted : 0 résiduel "Ute" (avant : 38) Cas protégés : - "Ute" accepté : bypass=True, U majuscule, alpha ✓ - "Les" refusé : bypass=True mais stopword (filtré ailleurs) ✓ - "JF" refusé : 2 chars, filtre longueur < 3 ✓ Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
placer tout les fichiers dans un répertoire. faire un chmod 777 install.sh pour lui donner les droits d'execution lancer ./install.sh pour lancer l'installation complete
L'installation peut prendre du temps, elle charge deux modele IA nlp. Elle crée un environement virtuel python.
Description
Languages
Python
98.2%
Batchfile
1%
PowerShell
0.5%
Shell
0.3%