|
|
cb84698c2d
|
Stop words +170 : détection automatique FP via dictionnaire français (audit_fp_detector.py)
- Nouvel outil audit_fp_detector.py : croise NOM_GLOBAL avec dictionnaire FR (346K mots),
patterns morphologiques médicaux, mots structurels DPI, fréquence inter-documents
- +170 stop words en 2 lots : termes médicaux (abdomen, bilirubine, gastrique...),
soins infirmiers (bijoux, ongles, maquillage, habillage...), mots courants (angle, bureau...)
- Ville basque ajoutée : anglet
- Résultat : 192/199 FP détectés couverts, 7 restants = artefacts OCR de vrais noms
- Total stop words : 5076 tokens
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-02-28 10:04:33 +01:00 |
|