Commit Graph

2 Commits

Author SHA1 Message Date
1c44a26eb3 chore(rgpd): replace CHCB/Bayonne/Saint-Denis/Réunion refs in source + configs (D-12)
Anonymise toutes les références à des entités réelles (CHCB, Bayonne, Saint-Denis,
Réunion, etc.) dans le code source, les configurations YAML, les scripts/outils,
et les tests unitaires. Conserve les tests synthétiques (cases) intentionnels.

- profile key chcb_strict → chuxx_strict
- CHCB → CHUXX, Bayonne → Chicago, Saint-Denis → Springfield,
  Réunion → Province Bêta, 64100/97400 → 12345, FINESS → 999999999,
  préfixe tél 05.59.44 → 0X.XX.XX
- renomme tools/test_chcb_leak.py → tools/test_force_term_leak.py

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 14:39:21 +02:00
93617bab55 analysis: Analyse complète des causes racines de la régression de qualité
- Régression identifiée: +183.6% PII/doc (13.4 → 38.0)
- 6 causes racines confirmées:
  1. Sur-masquage termes médicaux (RE_SERVICE trop large)
  2. Sur-détection noms (répétitions + termes médicaux)
  3. Masquage médicaments (whitelist non utilisée)
  4. Sur-masquage dates (51 vs 2, +2450%)
  5. Répétitions en-têtes/pieds (RPPS 36 vs 2)
  6. Artefacts OCR (paramètres non optimaux)

- Plan de correction en 3 phases (1-10 jours)
- Impact attendu: PII/doc -66%, Precision +35 points

Fichiers:
- ROOT_CAUSE_ANALYSIS.md: Analyse détaillée
- EXECUTIVE_SUMMARY.md: Résumé exécutif
- tools/root_cause_analysis.py: Script d'analyse
- tools/deep_quality_regression_analysis.py: Analyse approfondie
2026-03-02 23:13:30 +01:00