Files

3.2 KiB

Validation Corpus Complet - État d'Avancement

Date: 2 mars 2026
Statut: En cours (72% complété)

Objectif

Valider l'anonymisation optimisée sur le corpus complet de 1,354 PDFs pour confirmer:

  • Aucune fuite de données (dates de naissance, CHCB)
  • Qualité maintenue (Precision 100%, Recall 100%)
  • Performances acceptables

Progression

  • Documents traités: 971/1,354 (72%)
  • Succès: ~900+ documents
  • Échecs: ~70 documents (principalement ANAPATH protégés par mot de passe, erreurs _DOCTR_AVAILABLE)
  • Temps écoulé: ~1h (timeout atteint, processus continue en arrière-plan)

Résultats Partiels (971 documents)

Détections

  • PII détectés: ~100,000+ (estimation basée sur moyenne de 100 PII/doc)
  • Types principaux: NOM, DATE_NAISSANCE, ETAB, TEL, IPP, ADRESSE

Performances

  • Temps moyen: ~5-7s/document (trackare), ~0.5s/document (CRH/CRO)
  • Documents lents: Trackare avec nombreuses pages (10-15s)
  • Documents rapides: CRO simples (<0.5s)

Erreurs Identifiées

  1. ANAPATH protégés (~50 fichiers)

    • Erreur: Fichiers vides ou protégés par mot de passe
    • Impact: Aucun (documents non traités, pas de fuite)
  2. Bug _DOCTR_AVAILABLE (~15 fichiers)

    • Erreur: name '_DOCTR_AVAILABLE' is not defined
    • Fichiers concernés: Principalement ANAPATH et documents scannés
    • Impact: Documents non traités, nécessite correction du code
  3. PDFs corrompus (~5 fichiers)

    • Erreur: No /Root object! - Is this really a PDF?
    • Impact: Aucun (fichiers invalides)

Validation des Fuites

Méthode: Scan automatique des textes anonymisés pour détecter:

  • Dates de naissance avec contexte: Né(e) le DD/MM/YYYY
  • Mentions CHCB non masquées

Résultats attendus: 0 fuite (basé sur validation échantillon 111 docs)

Actions Requises

Immédiat

  1. Laisser le processus terminer (en cours)
  2. Analyser les résultats complets
  3. Vérifier les fuites sur corpus complet

Court Terme

  1. 🔧 Corriger le bug _DOCTR_AVAILABLE dans le code
  2. 📊 Générer le rapport final de validation
  3. 📝 Documenter les résultats dans OPTIMIZATION_RESULTS.md

Optionnel

  • Investiguer les ANAPATH protégés (si nécessaire)
  • Optimiser le traitement des documents scannés

Comparaison avec Échantillon

Métrique Échantillon (111 docs) Corpus Complet (971 docs)
Taux de succès 82% ~93%
PII/doc moyen 86.9 ~100 (estimation)
Temps/doc moyen 1.71s ~5-7s (trackare)
Fuites détectées 0 En attente

Note: Le taux de succès plus élevé sur le corpus complet s'explique par moins de fichiers .redacted_raster.pdf déjà anonymisés.

Prochaines Étapes

  1. Attendre la fin du processus de validation
  2. Analyser les statistiques complètes
  3. Vérifier les fuites sur tous les textes anonymisés
  4. Générer le rapport final
  5. Commit des résultats

Commande en cours:

python tools/validate_full_corpus.py 2>&1 | tee corpus_validation_full.log

Sortie: corpus_validation/ (audit + textes anonymisés)
Log: corpus_validation_full.log