feat: Phase 1 - Système d'évaluation de la qualité

- Sélection et copie de 27 documents représentatifs (10 simples, 12 moyens, 5 complexes)
- Outil d'annotation CLI complet (tools/annotation_tool.py)
- Guide d'annotation détaillé (docs/annotation_guide.md)
- Évaluateur de qualité (evaluation/quality_evaluator.py)
  * Calcul Précision, Rappel, F1-Score
  * Identification faux positifs/négatifs
  * Métriques par type de PII
  * Export JSON et rapports texte
- Scanner de fuite (evaluation/leak_scanner.py)
  * Détection PII résiduels (CRITIQUE)
  * Détection nouveaux PII (HAUTE)
  * Scan métadonnées PDF (MOYENNE)
- Benchmark de performance (evaluation/benchmark.py)
  * Mesure temps de traitement
  * Mesure CPU/RAM
  * Export JSON/CSV
- Tests unitaires complets pour tous les composants
- Documentation complète du module d'évaluation

Tâches complétées:
- 1.1.1 Sélection de 27 documents (au lieu de 30)
- 1.1.2 Outil d'annotation CLI
- 1.2.1 Évaluateur de qualité
- 1.2.2 Scanner de fuite
- 1.2.3 Benchmark de performance

Prochaines étapes:
- 1.1.3 Annotation des 27 documents (manuel)
- 1.1.4 Enrichissement stopwords médicaux
- 1.3 Mesure de la baseline
This commit is contained in:
2026-03-02 10:07:41 +01:00
parent 0067738df6
commit 340348b820
86 changed files with 35587 additions and 40 deletions

View File

@@ -0,0 +1,5 @@
fichier,total_hits,residual_pii,density_pct,nom_density_pct,alert_overmasking,fp_count,fn_count
407 crh.audit.jsonl,407,0,14.93,9.32,True,0,4
trackare-01285757-23042510_01285757_23042510.audit.jsonl,1316,0,7.57,4.03,False,0,10
trackare-02004744-23116460_02004744_23116460.audit.jsonl,876,0,8.57,4.35,False,0,4
trackare-BA165196-23061393_BA165196_23061393.audit.jsonl,2018,0,8.18,4.81,False,0,25
1 fichier total_hits residual_pii density_pct nom_density_pct alert_overmasking fp_count fn_count
2 407 crh.audit.jsonl 407 0 14.93 9.32 True 0 4
3 trackare-01285757-23042510_01285757_23042510.audit.jsonl 1316 0 7.57 4.03 False 0 10
4 trackare-02004744-23116460_02004744_23116460.audit.jsonl 876 0 8.57 4.35 False 0 4
5 trackare-BA165196-23061393_BA165196_23061393.audit.jsonl 2018 0 8.18 4.81 False 0 25