4.8 KiB
4.8 KiB
Résultats Baseline - Système d'Anonymisation
Date: 2026-03-02
Vue d'ensemble
Évaluation du système d'anonymisation actuel sur un dataset de 27 documents représentatifs.
Configuration
- NER: ✅ Activé (EDS-Pseudo ONNX)
- VLM: ❌ Désactivé (Ollama qwen2.5vl:7b)
- Documents traités: 25/27 (2 échecs - PDFs protégés par mot de passe)
Résultats de Performance
Temps de Traitement
| Métrique | Valeur |
|---|---|
| Temps total | 65.55s |
| Temps moyen | 2.62s par document |
| Temps médiane | 0.84s |
| Temps min | 0.31s |
| Temps max | 17.84s |
| Écart-type | 4.43s |
Débit
| Métrique | Valeur |
|---|---|
| Documents/seconde | 0.38 |
| PII/seconde | 97.6 |
PII Détectés
| Métrique | Valeur |
|---|---|
| Total PII | 6,395 |
| Moyenne | 255.8 par document |
| Médiane | 54 |
| Min | 0 |
| Max | 1,622 |
Validation des Objectifs
Objectif de Performance: < 10s par document (sans VLM)
✅ ATTEINT
- Temps moyen: 2.62s ≤ 10.0s
- Temps max: 17.84s ≤ 30.0s (3× objectif)
- 92% des documents dans l'objectif (23/25)
Objectif de Couverture: ≥ 80% des documents dans l'objectif
✅ ATTEINT (92%)
Analyse de Corrélation
Documents avec beaucoup de PII (>512)
- Nombre: 5 documents
- Temps moyen: 10.25s
- Observation: Corrélation forte entre nombre de PII et temps de traitement
Documents avec peu de PII (<128)
- Nombre: 15 documents
- Temps moyen: 0.54s
- Observation: Traitement très rapide pour les documents simples
Documents Lents (> 5.24s)
| Document | Temps | PII |
|---|---|---|
| 025_complexe_trackare_trackare-02016820-23095226 | 17.84s | 1,622 |
| 026_complexe_trackare_trackare-15000536-23074384 | 12.04s | 1,056 |
| 027_complexe_trackare_trackare-10027557-23183041 | 8.78s | 859 |
| 024_complexe_trackare_trackare-17001141-23066188 | 8.55s | 804 |
Observation: Tous les documents lents sont des documents Trackare complexes avec >800 PII.
Documents Rapides (< 1.31s)
| Document | Temps | PII |
|---|---|---|
| 021_moyen_compte_rendu_CRO_23201117.redacted_raster | 0.31s | 0 |
| 004_simple_anapath_anapath_53_23224186.redacted_raster | 0.35s | 0 |
| 022_moyen_compte_rendu_cro2_516_23187028 | 0.37s | 29 |
| 001_simple_unknown_BACTERIO_23018396 | 0.38s | 43 |
| 010_simple_anapath_ANAPATH_23217289 | 0.40s | 54 |
Observation: Documents déjà anonymisés (redacted_raster) ou simples avec peu de PII.
Types de PII Détectés (Exemple: Document Complexe)
Document: 025_complexe_trackare_trackare-02016820-23095226_02016820_23095226.pdf
| Type | Nombre |
|---|---|
| NOM_EXTRACTED | 1,244 |
| NOM | 168 |
| NOM_GLOBAL | 88 |
| DATE_NAISSANCE | 35 |
| EPISODE | 33 |
| ADRESSE | 8 |
| TEL | 8 |
| CODE_POSTAL | 7 |
| VILLE | 6 |
| Autres | 25 |
Échecs
2 documents ont échoué en raison de protection par mot de passe:
006_simple_anapath_ANAPATH_23142660.pdf007_simple_anapath_ANAPATH_23096332.pdf
Conclusions
Points Forts ✅
- Performance excellente: Temps moyen de 2.62s bien en dessous de l'objectif (10s)
- Couverture élevée: 92% des documents traités dans l'objectif
- Scalabilité: Traitement rapide des documents simples (<1s)
- Détection efficace: 6,395 PII détectés sur 25 documents
Points d'Attention ⚠️
- Documents complexes: Les documents Trackare avec >800 PII prennent 8-18s
- Variabilité: Écart-type élevé (4.43s) indique une grande variabilité
- Propagation globale: Beaucoup de détections
*_GLOBAL(propagation automatique) - PDFs protégés: 2 documents non traités (protection par mot de passe)
Prochaines Étapes
- Annotation manuelle (Tâche 1.1.3): Annoter les 27 documents pour évaluation qualité
- Évaluation qualité (Tâche 1.3.1): Calculer Précision, Rappel, F1-Score
- Analyse des faux positifs/négatifs (Tâche 1.3.3): Identifier les patterns problématiques
- Optimisation GPU (Phase 2): Accélérer le traitement des documents complexes
- Amélioration des détecteurs (Phase 2): Regex, contextuel, hybride
Fichiers Générés
tests/ground_truth/pdfs/baseline_anonymized/- 25 documents anonymisés (vector + raster PDF)tests/ground_truth/pdfs/baseline_anonymized/batch_results.json- Résultats détaillés du batchtests/ground_truth/benchmarks/baseline_benchmark.json- Statistiques de performancetests/ground_truth/benchmarks/baseline_benchmark.csv- Export CSV pour analyse
Outils Disponibles
tools/batch_anonymize_test_dataset.py- Anonymisation en batchtools/run_baseline_benchmark.py- Génération du rapport de benchmarktools/show_anonymization_example.py- Affichage détaillé d'un documenttools/show_batch_summary.py- Résumé global du batch