feat: Filtre hospitalier pour éliminer les faux positifs

- Ajout config/hospital_stopwords.yml avec adresses/téléphones hôpitaux
- Ajout detectors/hospital_filter.py pour filtrer les FP
- Intégration dans anonymizer_core_refactored_onnx.py
- Test sur document: 40 -> 32 détections (-8 FP)
- Élimine: adresses hôpitaux, codes postaux CEDEX, épisodes dans noms de fichiers
This commit is contained in:
2026-03-02 11:21:48 +01:00
parent 70ff0b9e12
commit 6806aee587
10 changed files with 10478 additions and 6 deletions

View File

@@ -66,12 +66,12 @@
### 1.3 Mesure de la Baseline
- [-] 1.3.1 Exécuter l'évaluation sur le dataset annoté
- [ ] 1.3.1.1 Anonymiser les 30 documents annotés avec le système actuel
- [ ] 1.3.1.2 Exécuter l'évaluateur sur les 30 documents
- [ ] 1.3.1.3 Générer le rapport de qualité baseline
- [ ] 1.3.1.4 Identifier les faux négatifs critiques
- [ ] 1.3.1.5 Identifier les faux positifs fréquents
- [x] 1.3.1 Exécuter l'évaluation sur le dataset annoté
- [x] 1.3.1.1 Anonymiser les 30 documents annotés avec le système actuel
- [x] 1.3.1.2 Exécuter l'évaluateur sur les 30 documents
- [x] 1.3.1.3 Générer le rapport de qualité baseline
- [x] 1.3.1.4 Identifier les faux négatifs critiques
- [x] 1.3.1.5 Identifier les faux positifs fréquents
- [x] 1.3.2 Exécuter le benchmark de performance
- [x] 1.3.2.1 Benchmarker le système actuel sur les 30 documents