Validation Corpus Complet - État d'Avancement

Date: 2 mars 2026
Statut: En cours (72% complété)

Objectif

Valider l'anonymisation optimisée sur le corpus complet de 1,354 PDFs pour confirmer:

Documents traités: 971/1,354 (72%)
Succès: ~900+ documents
Échecs: ~70 documents (principalement ANAPATH protégés par mot de passe, erreurs _DOCTR_AVAILABLE)
Temps écoulé: ~1h (timeout atteint, processus continue en arrière-plan)

ANAPATH protégés (~50 fichiers)
- Erreur: Fichiers vides ou protégés par mot de passe
- Impact: Aucun (documents non traités, pas de fuite)
Bug _DOCTR_AVAILABLE (~15 fichiers)
- Erreur: name '_DOCTR_AVAILABLE' is not defined
- Fichiers concernés: Principalement ANAPATH et documents scannés
- Impact: Documents non traités, nécessite correction du code
PDFs corrompus (~5 fichiers)
- Erreur: No /Root object! - Is this really a PDF?
- Impact: Aucun (fichiers invalides)

Méthode: Scan automatique des textes anonymisés pour détecter:

Résultats attendus: 0 fuite (basé sur validation échantillon 111 docs)

Note: Le taux de succès plus élevé sur le corpus complet s'explique par moins de fichiers .redacted_raster.pdf déjà anonymisés.

Commande en cours:

python tools/validate_full_corpus.py 2>&1 | tee corpus_validation_full.log

Sortie: corpus_validation/ (audit + textes anonymisés)
Log: corpus_validation_full.log