Files
anonymisation/audit_fp_detector.py
Domi31tls cb84698c2d Stop words +170 : détection automatique FP via dictionnaire français (audit_fp_detector.py)
- Nouvel outil audit_fp_detector.py : croise NOM_GLOBAL avec dictionnaire FR (346K mots),
  patterns morphologiques médicaux, mots structurels DPI, fréquence inter-documents
- +170 stop words en 2 lots : termes médicaux (abdomen, bilirubine, gastrique...),
  soins infirmiers (bijoux, ongles, maquillage, habillage...), mots courants (angle, bureau...)
- Ville basque ajoutée : anglet
- Résultat : 192/199 FP détectés couverts, 7 restants = artefacts OCR de vrais noms
- Total stop words : 5076 tokens

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-28 10:04:33 +01:00

14 KiB