- Sélection et copie de 27 documents représentatifs (10 simples, 12 moyens, 5 complexes) - Outil d'annotation CLI complet (tools/annotation_tool.py) - Guide d'annotation détaillé (docs/annotation_guide.md) - Évaluateur de qualité (evaluation/quality_evaluator.py) * Calcul Précision, Rappel, F1-Score * Identification faux positifs/négatifs * Métriques par type de PII * Export JSON et rapports texte - Scanner de fuite (evaluation/leak_scanner.py) * Détection PII résiduels (CRITIQUE) * Détection nouveaux PII (HAUTE) * Scan métadonnées PDF (MOYENNE) - Benchmark de performance (evaluation/benchmark.py) * Mesure temps de traitement * Mesure CPU/RAM * Export JSON/CSV - Tests unitaires complets pour tous les composants - Documentation complète du module d'évaluation Tâches complétées: - 1.1.1 Sélection de 27 documents (au lieu de 30) - 1.1.2 Outil d'annotation CLI - 1.2.1 Évaluateur de qualité - 1.2.2 Scanner de fuite - 1.2.3 Benchmark de performance Prochaines étapes: - 1.1.3 Annotation des 27 documents (manuel) - 1.1.4 Enrichissement stopwords médicaux - 1.3 Mesure de la baseline
400 B
400 B
| 1 | fichier | total_hits | residual_pii | density_pct | nom_density_pct | alert_overmasking | fp_count | fn_count |
|---|---|---|---|---|---|---|---|---|
| 2 | 407 crh.audit.jsonl | 407 | 0 | 14.93 | 9.32 | True | 0 | 4 |
| 3 | trackare-01285757-23042510_01285757_23042510.audit.jsonl | 1316 | 0 | 7.57 | 4.03 | False | 0 | 10 |
| 4 | trackare-02004744-23116460_02004744_23116460.audit.jsonl | 876 | 0 | 8.57 | 4.35 | False | 0 | 4 |
| 5 | trackare-BA165196-23061393_BA165196_23061393.audit.jsonl | 2018 | 0 | 8.18 | 4.81 | False | 0 | 25 |