Commit Graph

4 Commits

Author SHA1 Message Date
92557d4e74 chore(rgpd): replace CHCB/Bayonne/Saint-Denis/Réunion refs in source + configs (D-12)
Anonymise toutes les références à des entités réelles (CHCB, Bayonne, Saint-Denis,
Réunion, etc.) dans le code source, les configurations YAML, les scripts/outils,
et les tests unitaires. Conserve les tests synthétiques (cases) intentionnels.

- profile key chcb_strict → chuxx_strict
- CHCB → CHUXX, Bayonne → Chicago, Saint-Denis → Springfield,
  Réunion → Province Bêta, 64100/97400 → 12345, FINESS → 999999999,
  préfixe tél 05.59.44 → 0X.XX.XX
- renomme tools/test_chcb_leak.py → tools/test_force_term_leak.py

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 14:39:21 +02:00
34dcf8f360 Externalize dictionaries and add anonymization review corpus 2026-04-21 10:32:57 +02:00
fbdf226039 fix: Propagation globale sélective v2 - Normalisation dates + Multi-pass
- Normalisation agressive des dates : génère 4 variations (/, ., -, espaces)
- Remplacement multi-pass : avec/sans contexte 'Né(e) le'
- Amélioration force_term : case-insensitive + word boundaries
- Outil de validation post-anonymisation
- Tests : 162 CRO, 0 fuite dates, 0 fuite CHCB (100% succès)
- Temps: 0.1s/doc

Résout les 36 CRO avec fuites identifiées dans l'audit initial.
2026-03-02 12:22:58 +01:00
b360447704 fix: Propagation globale sélective pour corriger fuites dates CRO
Problème:
- 36 CRO avec fuites dates de naissance (Né(e) le DD/MM/YYYY)
- Dates détectées page 0 mais pas propagées pages suivantes
- Désactivation propagation globale avait éliminé 951 FP mais créé fuites

Solution:
- Propagation SÉLECTIVE: uniquement PII critiques (DATE_NAISSANCE, NIR, IPP, EMAIL, force_term)
- PII non-critiques (TEL, ADRESSE, etc.) NON propagés (évite 951 FP)
- Remplacement amélioré: gère variations format dates (/, ., -, espaces)
- Gère contexte 'Né(e) le' avec case-insensitive

Impact attendu:
- Rappel: 100% (plus de fuites)
- Précision: 85-87% (légère baisse vs 88.27%, mais acceptable)
- FP réintroduits: ~10-20 (vs 951 avant)

Fichiers:
- anonymizer_core_refactored_onnx.py: propagation sélective + remplacement amélioré
- tools/test_date_propagation.py: script test sur CRO
- LEAK_FIX.md: documentation complète de la correction
2026-03-02 11:59:32 +01:00