gui: Ajout indicateurs qualité (fuites, performances)
This commit is contained in:
@@ -0,0 +1,97 @@
|
||||
# Validation Corpus Complet - État d'Avancement
|
||||
|
||||
**Date**: 2 mars 2026
|
||||
**Statut**: En cours (72% complété)
|
||||
|
||||
## Objectif
|
||||
|
||||
Valider l'anonymisation optimisée sur le corpus complet de 1,354 PDFs pour confirmer:
|
||||
- ✅ Aucune fuite de données (dates de naissance, CHCB)
|
||||
- ✅ Qualité maintenue (Precision 100%, Recall 100%)
|
||||
- ✅ Performances acceptables
|
||||
|
||||
## Progression
|
||||
|
||||
- **Documents traités**: 971/1,354 (72%)
|
||||
- **Succès**: ~900+ documents
|
||||
- **Échecs**: ~70 documents (principalement ANAPATH protégés par mot de passe, erreurs `_DOCTR_AVAILABLE`)
|
||||
- **Temps écoulé**: ~1h (timeout atteint, processus continue en arrière-plan)
|
||||
|
||||
## Résultats Partiels (971 documents)
|
||||
|
||||
### Détections
|
||||
- **PII détectés**: ~100,000+ (estimation basée sur moyenne de 100 PII/doc)
|
||||
- **Types principaux**: NOM, DATE_NAISSANCE, ETAB, TEL, IPP, ADRESSE
|
||||
|
||||
### Performances
|
||||
- **Temps moyen**: ~5-7s/document (trackare), ~0.5s/document (CRH/CRO)
|
||||
- **Documents lents**: Trackare avec nombreuses pages (10-15s)
|
||||
- **Documents rapides**: CRO simples (<0.5s)
|
||||
|
||||
### Erreurs Identifiées
|
||||
|
||||
1. **ANAPATH protégés** (~50 fichiers)
|
||||
- Erreur: Fichiers vides ou protégés par mot de passe
|
||||
- Impact: Aucun (documents non traités, pas de fuite)
|
||||
|
||||
2. **Bug `_DOCTR_AVAILABLE`** (~15 fichiers)
|
||||
- Erreur: `name '_DOCTR_AVAILABLE' is not defined`
|
||||
- Fichiers concernés: Principalement ANAPATH et documents scannés
|
||||
- Impact: Documents non traités, nécessite correction du code
|
||||
|
||||
3. **PDFs corrompus** (~5 fichiers)
|
||||
- Erreur: `No /Root object! - Is this really a PDF?`
|
||||
- Impact: Aucun (fichiers invalides)
|
||||
|
||||
## Validation des Fuites
|
||||
|
||||
**Méthode**: Scan automatique des textes anonymisés pour détecter:
|
||||
- Dates de naissance avec contexte: `Né(e) le DD/MM/YYYY`
|
||||
- Mentions CHCB non masquées
|
||||
|
||||
**Résultats attendus**: 0 fuite (basé sur validation échantillon 111 docs)
|
||||
|
||||
## Actions Requises
|
||||
|
||||
### Immédiat
|
||||
1. ✅ Laisser le processus terminer (en cours)
|
||||
2. ⏳ Analyser les résultats complets
|
||||
3. ⏳ Vérifier les fuites sur corpus complet
|
||||
|
||||
### Court Terme
|
||||
1. 🔧 Corriger le bug `_DOCTR_AVAILABLE` dans le code
|
||||
2. 📊 Générer le rapport final de validation
|
||||
3. 📝 Documenter les résultats dans OPTIMIZATION_RESULTS.md
|
||||
|
||||
### Optionnel
|
||||
- Investiguer les ANAPATH protégés (si nécessaire)
|
||||
- Optimiser le traitement des documents scannés
|
||||
|
||||
## Comparaison avec Échantillon
|
||||
|
||||
| Métrique | Échantillon (111 docs) | Corpus Complet (971 docs) |
|
||||
|----------|------------------------|---------------------------|
|
||||
| Taux de succès | 82% | ~93% |
|
||||
| PII/doc moyen | 86.9 | ~100 (estimation) |
|
||||
| Temps/doc moyen | 1.71s | ~5-7s (trackare) |
|
||||
| Fuites détectées | 0 | En attente |
|
||||
|
||||
**Note**: Le taux de succès plus élevé sur le corpus complet s'explique par moins de fichiers `.redacted_raster.pdf` déjà anonymisés.
|
||||
|
||||
## Prochaines Étapes
|
||||
|
||||
1. Attendre la fin du processus de validation
|
||||
2. Analyser les statistiques complètes
|
||||
3. Vérifier les fuites sur tous les textes anonymisés
|
||||
4. Générer le rapport final
|
||||
5. Commit des résultats
|
||||
|
||||
---
|
||||
|
||||
**Commande en cours**:
|
||||
```bash
|
||||
python tools/validate_full_corpus.py 2>&1 | tee corpus_validation_full.log
|
||||
```
|
||||
|
||||
**Sortie**: `corpus_validation/` (audit + textes anonymisés)
|
||||
**Log**: `corpus_validation_full.log`
|
||||
Reference in New Issue
Block a user