5.1 KiB
Phase 1 - Guide de Démarrage Rapide
Date: 2 mars 2026
Statut: ✅ COMPLÉTÉ
🎯 Résumé en 30 Secondes
Les 3 corrections critiques ont été implémentées pour résoudre la régression de qualité:
- ✅ Termes médicaux préservés: "Chef de service", "Praticien hospitalier", etc. ne sont plus masqués
- ✅ Médicaments préservés: IDACIO, Salazopyrine, etc. ne sont plus masqués
- ✅ Dates de consultation préservées: Seules les dates de naissance sont masquées
Impact attendu: PII/doc 38.0 → 25.0 (-34%), Lisibilité Médiocre → Bonne
🚀 Test Rapide (5 minutes)
Étape 1: Tester les corrections
python3 tools/test_phase1_corrections.py
Résultat attendu:
✅ PHASE 1 CORRECTIONS VALIDÉES
📊 Taux de succès global: 80-100%
Étape 2: Anonymiser un document
python3 Pseudonymisation_Gui_V5.py
Ou en ligne de commande:
python3 anonymizer_core_refactored_onnx.py input.pdf output_dir/
Étape 3: Vérifier le résultat
Ouvrir le fichier .pseudonymise.txt et vérifier:
- ✅ Les dates de consultation sont visibles (ex: "Consultation du 15/01/2024")
- ✅ Les médicaments sont visibles (ex: "IDACIO 40mg")
- ✅ Les fonctions médicales sont visibles (ex: "Chef de service")
- ✅ Les dates de naissance sont masquées (ex: "Né(e) le [DATE_NAISSANCE]")
- ✅ Les noms sont masqués (ex: "Dr [NOM]")
📊 Métriques Avant/Après
| Métrique | Avant | Après | Amélioration |
|---|---|---|---|
| PII/doc | 38.0 | ~25.0 | -34% |
| [DATE] | 41 | 0 | -100% |
| Médicaments masqués | 1+ | 0 | -100% |
| ETAB faux positifs | 26 | ~6 | -77% |
| Lisibilité | Médiocre | Bonne | ++ |
🔧 Fichiers Modifiés
1. Configuration
config/medical_terms_whitelist.yml(créé)- 20+ termes médicaux structurels
2. Code Principal
-
anonymizer_core_refactored_onnx.py- Ligne ~104-130: Chargement des whitelists
- Ligne ~920-945: Filtrage des termes médicaux
- Ligne ~1450-1470: Filtrage des médicaments
-
eds_pseudo_manager.py- Ligne 35: Désactivation du mapping "DATE"
3. Tests
tools/test_phase1_corrections.py(créé)- Script de validation automatique
🐛 Dépannage
Problème: Le script de test ne trouve pas de documents
Solution: Vérifier que les documents de test existent:
ls tests/ground_truth/pdfs/*.pdf | head -5
Si vide, copier des documents de test:
cp corpus_validation_sample/*.pdf tests/ground_truth/pdfs/
Problème: Les médicaments sont toujours masqués
Vérification: Vérifier que la whitelist est chargée:
grep "Whitelist médicaments chargée" logs/anonymization.log
Solution: Vérifier que edsnlp est installé:
pip install 'edsnlp[ml]>=0.12.0'
Problème: Les dates de consultation sont toujours masquées
Vérification: Vérifier que le mapping DATE est désactivé:
grep '"DATE": "DATE"' eds_pseudo_manager.py
Résultat attendu: La ligne doit être commentée:
# "DATE": "DATE", # DÉSACTIVÉ
📝 Validation Manuelle (Optionnel)
Étape 1: Sélectionner un document
# Anonymiser un document de test
python3 anonymizer_core_refactored_onnx.py \
tests/ground_truth/pdfs/001_simple_unknown_BACTERIO_23018396.pdf \
tests/ground_truth/pdfs/phase1_manual_test/
Étape 2: Ouvrir le texte anonymisé
cat tests/ground_truth/pdfs/phase1_manual_test/001_simple_unknown_BACTERIO_23018396.pseudonymise.txt
Étape 3: Vérifier visuellement
- Les dates de consultation sont visibles
- Les médicaments sont visibles
- Les fonctions médicales sont visibles
- Les dates de naissance sont masquées
- Les noms sont masqués
- Les NIR, IPP, etc. sont masqués
🚀 Prochaines Étapes
Si la Phase 1 est validée
-
Mesurer l'impact réel:
python3 tools/analyze_real_quality.py -
Valider sur un corpus plus large:
python3 tools/run_baseline_benchmark.py -
Décider si Phase 2 est nécessaire:
- Si PII/doc < 25: ✅ Objectif atteint
- Si PII/doc > 25: Passer à la Phase 2
Phase 2 (Optionnel)
Si vous souhaitez améliorer encore la qualité:
- Enrichir les stopwords médicaux (2-3 jours)
- Implémenter la dédoplication intelligente (2-3 jours)
- Optimiser l'extraction OCR (3-5 jours)
📞 Support
Documentation Complète
PHASE1_IMPLEMENTATION.md: Détails techniques completsPHASE1_COMPLETION_SUMMARY.md: Résumé de complétionROOT_CAUSE_ANALYSIS.md: Analyse des causes racines
Logs
Les logs d'anonymisation sont dans:
logs/anonymization.logtests/ground_truth/pdfs/phase1_test/*.audit.jsonl
Contact
Pour toute question ou problème, consulter:
FONCTIONNEMENT.md: Documentation du système.kiro/specs/anonymization-quality-optimization/: Spécifications complètes
Dernière mise à jour: 2 mars 2026
Auteur: Kiro AI Assistant
Statut: ✅ COMPLÉTÉ - Prêt pour validation