Files
anonymisation/tools/compare_original_vs_anonymized.py
Domi31tls 92557d4e74 chore(rgpd): replace CHCB/Bayonne/Saint-Denis/Réunion refs in source + configs (D-12)
Anonymise toutes les références à des entités réelles (CHCB, Bayonne, Saint-Denis,
Réunion, etc.) dans le code source, les configurations YAML, les scripts/outils,
et les tests unitaires. Conserve les tests synthétiques (cases) intentionnels.

- profile key chcb_strict → chuxx_strict
- CHCB → CHUXX, Bayonne → Chicago, Saint-Denis → Springfield,
  Réunion → Province Bêta, 64100/97400 → 12345, FINESS → 999999999,
  préfixe tél 05.59.44 → 0X.XX.XX
- renomme tools/test_chcb_leak.py → tools/test_force_term_leak.py

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 14:39:21 +02:00

40 lines
1.3 KiB
Python

#!/usr/bin/env python3
"""Compare un document original avec sa version anonymisée."""
import sys
from pathlib import Path
sys.path.insert(0, str(Path(__file__).parent.parent))
import pdfplumber
# Document original
original_pdf = Path("/home/dom/Téléchargements/II-1 Ctrl_T2A_2025_CHUXX_DocJustificatifs/102_23056463/CRH 23056364.pdf")
anonymized_txt = Path("/home/dom/Téléchargements/II-1 Ctrl_T2A_2025_CHUXX_DocJustificatifs/anonymise/CRH 23056364.pseudonymise.txt")
print("="*80)
print("COMPARAISON ORIGINAL vs ANONYMISÉ")
print("="*80)
# Extraire texte original
print("\n📄 Extraction du texte original...")
with pdfplumber.open(original_pdf) as pdf:
original_text = "\n".join([page.extract_text() or "" for page in pdf.pages])
# Lire texte anonymisé
with open(anonymized_txt, 'r', encoding='utf-8') as f:
anonymized_text = f.read()
print(f"\n📊 Longueur texte original: {len(original_text)} caractères")
print(f"📊 Longueur texte anonymisé: {len(anonymized_text)} caractères")
# Afficher les 100 premières lignes de chaque
print("\n" + "="*80)
print("TEXTE ORIGINAL (100 premières lignes):")
print("="*80)
print("\n".join(original_text.split('\n')[:100]))
print("\n" + "="*80)
print("TEXTE ANONYMISÉ (100 premières lignes):")
print("="*80)
print("\n".join(anonymized_text.split('\n')[:100]))