3.2 KiB
3.2 KiB
Validation Corpus Complet - État d'Avancement
Date: 2 mars 2026
Statut: En cours (72% complété)
Objectif
Valider l'anonymisation optimisée sur le corpus complet de 1,354 PDFs pour confirmer:
- ✅ Aucune fuite de données (dates de naissance, CHCB)
- ✅ Qualité maintenue (Precision 100%, Recall 100%)
- ✅ Performances acceptables
Progression
- Documents traités: 971/1,354 (72%)
- Succès: ~900+ documents
- Échecs: ~70 documents (principalement ANAPATH protégés par mot de passe, erreurs
_DOCTR_AVAILABLE) - Temps écoulé: ~1h (timeout atteint, processus continue en arrière-plan)
Résultats Partiels (971 documents)
Détections
- PII détectés: ~100,000+ (estimation basée sur moyenne de 100 PII/doc)
- Types principaux: NOM, DATE_NAISSANCE, ETAB, TEL, IPP, ADRESSE
Performances
- Temps moyen: ~5-7s/document (trackare), ~0.5s/document (CRH/CRO)
- Documents lents: Trackare avec nombreuses pages (10-15s)
- Documents rapides: CRO simples (<0.5s)
Erreurs Identifiées
-
ANAPATH protégés (~50 fichiers)
- Erreur: Fichiers vides ou protégés par mot de passe
- Impact: Aucun (documents non traités, pas de fuite)
-
Bug
_DOCTR_AVAILABLE(~15 fichiers)- Erreur:
name '_DOCTR_AVAILABLE' is not defined - Fichiers concernés: Principalement ANAPATH et documents scannés
- Impact: Documents non traités, nécessite correction du code
- Erreur:
-
PDFs corrompus (~5 fichiers)
- Erreur:
No /Root object! - Is this really a PDF? - Impact: Aucun (fichiers invalides)
- Erreur:
Validation des Fuites
Méthode: Scan automatique des textes anonymisés pour détecter:
- Dates de naissance avec contexte:
Né(e) le DD/MM/YYYY - Mentions CHCB non masquées
Résultats attendus: 0 fuite (basé sur validation échantillon 111 docs)
Actions Requises
Immédiat
- ✅ Laisser le processus terminer (en cours)
- ⏳ Analyser les résultats complets
- ⏳ Vérifier les fuites sur corpus complet
Court Terme
- 🔧 Corriger le bug
_DOCTR_AVAILABLEdans le code - 📊 Générer le rapport final de validation
- 📝 Documenter les résultats dans OPTIMIZATION_RESULTS.md
Optionnel
- Investiguer les ANAPATH protégés (si nécessaire)
- Optimiser le traitement des documents scannés
Comparaison avec Échantillon
| Métrique | Échantillon (111 docs) | Corpus Complet (971 docs) |
|---|---|---|
| Taux de succès | 82% | ~93% |
| PII/doc moyen | 86.9 | ~100 (estimation) |
| Temps/doc moyen | 1.71s | ~5-7s (trackare) |
| Fuites détectées | 0 | En attente |
Note: Le taux de succès plus élevé sur le corpus complet s'explique par moins de fichiers .redacted_raster.pdf déjà anonymisés.
Prochaines Étapes
- Attendre la fin du processus de validation
- Analyser les statistiques complètes
- Vérifier les fuites sur tous les textes anonymisés
- Générer le rapport final
- Commit des résultats
Commande en cours:
python tools/validate_full_corpus.py 2>&1 | tee corpus_validation_full.log
Sortie: corpus_validation/ (audit + textes anonymisés)
Log: corpus_validation_full.log