chore(rgpd): replace CHCB/Bayonne/Saint-Denis/Réunion refs in source + configs (D-12)

Anonymise toutes les références à des entités réelles (CHCB, Bayonne, Saint-Denis,
Réunion, etc.) dans le code source, les configurations YAML, les scripts/outils,
et les tests unitaires. Conserve les tests synthétiques (cases) intentionnels.

- profile key chcb_strict → chuxx_strict
- CHCB → CHUXX, Bayonne → Chicago, Saint-Denis → Springfield,
  Réunion → Province Bêta, 64100/97400 → 12345, FINESS → 999999999,
  préfixe tél 05.59.44 → 0X.XX.XX
- renomme tools/test_chcb_leak.py → tools/test_force_term_leak.py

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-02 14:39:21 +02:00
parent a1ef2225d5
commit 1c44a26eb3
37 changed files with 819 additions and 128 deletions

View File

@@ -14,7 +14,7 @@ from collections import Counter
from pathlib import Path
BASELINE_DIR = Path(__file__).parent / "baseline"
OUTPUT_DIR = Path("/home/dom/Téléchargements/II-1 Ctrl_T2A_2025_CHCB_DocJustificatifs (1)/anonymise_audit_30")
OUTPUT_DIR = Path("/home/dom/Téléchargements/II-1 Ctrl_T2A_2025_CHUXX_DocJustificatifs (1)/anonymise_audit_30")
# === Patterns de fuites connues ===
LEAK_CHECKS = {
@@ -23,7 +23,7 @@ LEAK_CHECKS = {
"RPPS_raw": re.compile(r"\b[12]\d{10}\b"), # 11 chiffres commençant par 1 ou 2
"bracket_double": re.compile(r"\[\["),
"www_hospital": re.compile(r"www\.ch-cote-basque"),
"FINESS_raw": re.compile(r"\b640000162\b"),
"FINESS_raw": re.compile(r"\b999999999\b"),
}
# === Termes médicaux qui NE doivent PAS être masqués ===