- Sélection et copie de 27 documents représentatifs (10 simples, 12 moyens, 5 complexes) - Outil d'annotation CLI complet (tools/annotation_tool.py) - Guide d'annotation détaillé (docs/annotation_guide.md) - Évaluateur de qualité (evaluation/quality_evaluator.py) * Calcul Précision, Rappel, F1-Score * Identification faux positifs/négatifs * Métriques par type de PII * Export JSON et rapports texte - Scanner de fuite (evaluation/leak_scanner.py) * Détection PII résiduels (CRITIQUE) * Détection nouveaux PII (HAUTE) * Scan métadonnées PDF (MOYENNE) - Benchmark de performance (evaluation/benchmark.py) * Mesure temps de traitement * Mesure CPU/RAM * Export JSON/CSV - Tests unitaires complets pour tous les composants - Documentation complète du module d'évaluation Tâches complétées: - 1.1.1 Sélection de 27 documents (au lieu de 30) - 1.1.2 Outil d'annotation CLI - 1.2.1 Évaluateur de qualité - 1.2.2 Scanner de fuite - 1.2.3 Benchmark de performance Prochaines étapes: - 1.1.3 Annotation des 27 documents (manuel) - 1.1.4 Enrichissement stopwords médicaux - 1.3 Mesure de la baseline
37 lines
631 B
YAML
37 lines
631 B
YAML
version: 1
|
|
encoding: utf-8
|
|
normalization: NFKC
|
|
whitelist:
|
|
sections_titres:
|
|
- DIM
|
|
- GHM
|
|
- GHS
|
|
- RUM
|
|
- COMPTE
|
|
- RENDU
|
|
- DIAGNOSTIC
|
|
noms_maj_excepts:
|
|
- Médecin DIM
|
|
- Praticien conseil
|
|
org_gpe_keep: true
|
|
blacklist:
|
|
force_mask_terms:
|
|
- CENTRE HOSPITALIER COTE BASQUE
|
|
- 'Dates du séjour :'
|
|
force_mask_regex: []
|
|
kv_labels_preserve:
|
|
- FINESS
|
|
- IPP
|
|
- N° OGC
|
|
- Etablissement
|
|
regex_overrides:
|
|
- name: OGC_court
|
|
pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
|
|
placeholder: '[OGC]'
|
|
flags:
|
|
- IGNORECASE
|
|
flags:
|
|
case_insensitive: true
|
|
unicode_word_boundaries: true
|
|
regex_engine: python
|