Initial commit — Pseudonymisation de PDF v5

- GUI v5 : vue unique épurée (tkinter), 2 étapes visuelles - Core ONNX : anonymisation regex + NER optionnel - Extraction globale des noms depuis champs structurés (Patient, Rédigé par, MME/Madame, DR) - Génération simultanée PDF Image + PDF Anonymisé (structure préservée) - Build Windows via Nuitka (script batch + GitHub Actions CI) - install.sh pour setup/run Linux Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-16 15:03:37 +01:00
commit 8339069c83
18 changed files with 5127 additions and 0 deletions
--- a/.github/workflows/build-windows.yml
+++ b/.github/workflows/build-windows.yml
@@ -0,0 +1,68 @@
 name: Build Windows EXE (Nuitka)
 on:
  workflow_dispatch:        # declenchement manuel depuis GitHub
  push:
    tags:
      - 'v*'               # build automatique sur tag v5.0, v5.1, etc.
 jobs:
  build-windows:
    runs-on: windows-latest
    timeout-minutes: 45
    steps:
      - name: Checkout
        uses: actions/checkout@v4
      - name: Setup Python
        uses: actions/setup-python@v5
        with:
          python-version: '3.12'
          cache: pip
      - name: Install dependencies
        run: |
          python -m pip install --upgrade pip setuptools wheel
          pip install -r requirements.txt
          pip install nuitka orderedset zstandard
      - name: Build with Nuitka
        run: |
          python -m nuitka `
            --standalone `
            --onefile `
            --enable-plugin=tk-inter `
            --include-module=anonymizer_core_refactored_onnx `
            --include-module=ner_manager_onnx `
            --include-module=eds_pseudo_manager `
            --include-data-dir=config=config `
            --windows-console-mode=disable `
            --output-filename=Pseudonymisation.exe `
            --company-name="Hopital" `
            --product-name="Pseudonymisation de PDF" `
            --product-version=5.0.0 `
            --file-description="Pseudonymisation automatique de documents PDF" `
            --assume-yes-for-downloads `
            --remove-output `
            Pseudonymisation_Gui_V5.py
      - name: Prepare release archive
        run: |
          New-Item -ItemType Directory -Force -Path dist
          Copy-Item Pseudonymisation.exe dist/
          Copy-Item -Recurse config dist/config
      - name: Upload artifact
        uses: actions/upload-artifact@v4
        with:
          name: Pseudonymisation-Windows-x64
          path: dist/
          retention-days: 30
      - name: Upload to release (on tag)
        if: startsWith(github.ref, 'refs/tags/')
        uses: softprops/action-gh-release@v2
        with:
          files: |
            dist/Pseudonymisation.exe
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,41 @@
 # Python
 __pycache__/
 *.py[cod]
 *.pyo
 *.egg-info/
 dist/
 build/
 *.spec
 # Environnement virtuel
 .venv/
 venv/
 env/
 # IDE
 .idea/
 .vscode/
 *.swp
 *.swo
 # Modeles NER (volumineux, telecharges automatiquement)
 models/
 # PDF de test et resultats
 pdf_natif/
 pseudonymise/
 # Archives
 *.zip
 # Nuitka build
 *.build/
 *.dist/
 *.onefile-build/
 # OS
 .DS_Store
 Thumbs.db
 # Divers
 test-mini.js
--- a/Pseudonymisation_Gui_Models_V4.py
+++ b/Pseudonymisation_Gui_Models_V4.py
@@ -0,0 +1,407 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 Pseudonymisation – GUI v4 (Gestionnaire de modèles ONNX + mode Simple/Avancé)
 -----------------------------------------------------------------------------
 - Onglet Simple : parcours en 3 clics + choix "PDF anonymisé (léger)" / "PDF image (très sûr)"
 - Onglet Avancé : gestion des règles YAML + Créateur de règle + Gestionnaire de modèles ONNX
 - Chargement paresseux du modèle NER (CamemBERT family, ONNX Runtime via Optimum)
 - Application du NER uniquement au narratif, avec seuils par type
 Fichiers requis à côté :
  - anonymizer_core_refactored_onnx.py
  - ner_manager_onnx.py
 """
 from __future__ import annotations
 import json
 import os
 import platform
 import queue
 import re
 import threading
 from pathlib import Path
 from typing import Any, Dict
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 # Core
 try:
    import anonymizer_core_refactored_onnx as core
 except Exception as e:
    raise SystemExit(f"Impossible d'importer le core ONNX : {e}")
 # NER manager
 try:
    from ner_manager_onnx import NerModelManager, NerThresholds
 except Exception as e:
    NerModelManager = None  # type: ignore
    NerThresholds = None  # type: ignore
 try:
    from eds_pseudo_manager import EdsPseudoManager
 except Exception:
    EdsPseudoManager = None  # type: ignore
 try:
    import yaml
 except Exception:
    yaml = None
 APP_TITLE = "Pseudonymisation de PDF"
 DEFAULT_CFG = Path("config/dictionnaires.yml")
 DEFAULTS_CFG_TEXT = r"""
 # dictionnaires.yml – valeurs par défaut (bloc littéral pour les regex)
 version: 1
 encoding: "utf-8"
 normalization: "NFKC"
 whitelist:
  sections_titres: [DIM, GHM, GHS, RUM, COMPTE, RENDU, DIAGNOSTIC]
  noms_maj_excepts: ["Médecin DIM", "Praticien conseil"]
  org_gpe_keep: true
 blacklist:
  force_mask_terms: []
  force_mask_regex: []
 kv_labels_preserve: [FINESS, IPP, "N° OGC", Etablissement]
 regex_overrides:
  - name: OGC_court
    pattern: |-
      \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
    placeholder: '[OGC]'
    flags: [IGNORECASE]
 flags:
  case_insensitive: true
  unicode_word_boundaries: true
  regex_engine: "python"
 """
 class ToolTip:
    def __init__(self, widget, text: str):
        self.widget = widget; self.text = text; self.tip=None
        widget.bind("<Enter>", self.show); widget.bind("<Leave>", self.hide)
    def show(self, *_):
        if self.tip: return
        x = self.widget.winfo_rootx() + 20; y = self.widget.winfo_rooty() + self.widget.winfo_height() + 4
        self.tip = tw = tk.Toplevel(self.widget); tw.wm_overrideredirect(True); tw.wm_geometry(f"+{x}+{y}")
        tk.Label(tw, text=self.text, justify=tk.LEFT, relief=tk.SOLID, borderwidth=1, padx=6, pady=4).pack(ipadx=1)
    def hide(self, *_):
        if self.tip: self.tip.destroy(); self.tip=None
 def open_folder(path: Path):
    try:
        if platform.system() == "Windows": os.startfile(str(path)) # type: ignore
        elif platform.system() == "Darwin": os.system(f"open '{path}'")
        else: os.system(f"xdg-open '{path}'")
    except Exception: pass
 class App:
    def __init__(self, root: tk.Tk):
        self.root = root; self.root.title(APP_TITLE); self.root.geometry("1280x900")
        self.dir_var = tk.StringVar(); self.status_var = tk.StringVar(value="Prêt.")
        self.cfg_path = tk.StringVar(value=str(DEFAULT_CFG))
        self.queue: "queue.Queue[str]" = queue.Queue()
        self.format_var = tk.StringVar(value="raster")
        # NER state
        self.use_hf = tk.BooleanVar(value=False)
        self.model_choice = tk.StringVar(value="DistilCamemBERT-NER (ONNX)")
        self.model_id = tk.StringVar(value="")
        self.th_per = tk.DoubleVar(value=0.90); self.th_org = tk.DoubleVar(value=0.90); self.th_loc = tk.DoubleVar(value=0.90)
        self.model_status = tk.StringVar(value="Aucun modèle chargé.")
        self._onnx_manager: NerModelManager | None = NerModelManager(cache_dir=Path("models")) if NerModelManager else None
        self._eds_manager: EdsPseudoManager | None = EdsPseudoManager(cache_dir=Path("models")) if EdsPseudoManager else None
        self._active_manager = None  # le manager actuellement chargé
        self.cfg_data: Dict[str, Any] = {}
        self._build_ui(); self._pump_logs(); self._ensure_cfg_exists(); self._load_cfg()
    def _build_ui(self):
        wrap = tk.Frame(self.root, padx=10, pady=10); wrap.pack(fill=tk.BOTH, expand=True)
        nb = ttk.Notebook(wrap); nb.pack(fill=tk.BOTH, expand=True)
        # --- Simple ---
        simple = tk.Frame(nb, padx=12, pady=12); nb.add(simple, text="Simple")
        row = tk.Frame(simple); row.pack(fill=tk.X)
        tk.Label(row, text="Répertoire documents :").pack(side=tk.LEFT)
        tk.Entry(row, textvariable=self.dir_var).pack(side=tk.LEFT, fill=tk.X, expand=True, padx=6)
        tk.Button(row, text="Choisir…", command=self._browse).pack(side=tk.LEFT, padx=3)
        fmt = tk.LabelFrame(simple, text="Format du document final"); fmt.pack(fill=tk.X, pady=10)
        rb_ras = tk.Radiobutton(fmt, text="PDF image (très sûr — recommandé)", variable=self.format_var, value="raster"); rb_ras.pack(anchor="w", padx=6)
        ToolTip(rb_ras, "Convertit chaque page en image avec boîtes noires. Aucun texte résiduel. Fichier plus lourd, non sélectionnable.")
        rb_vec = tk.Radiobutton(fmt, text="PDF anonymisé (léger)", variable=self.format_var, value="vector"); rb_vec.pack(anchor="w", padx=6)
        ToolTip(rb_vec, "⚠ Le texte sous-jacent reste potentiellement récupérable par copier-coller. Utilisez le mode image pour une sécurité maximale.")
        actions = tk.Frame(simple); actions.pack(fill=tk.X, pady=(6,2))
        self.btn_run = tk.Button(actions, text="Anonymiser", command=self._run); self.btn_run.pack(side=tk.LEFT)
        tk.Button(actions, text="Aide (2 min)", command=self._show_help).pack(side=tk.LEFT, padx=6)
        self.btn_open_out = tk.Button(actions, text="Ouvrir le dossier de résultats", command=self._open_out, state=tk.DISABLED); self.btn_open_out.pack(side=tk.RIGHT)
        tk.Label(simple, text="Rapport d’exécution :").pack(anchor="w")
        self.txt = tk.Text(simple, height=22); self.txt.pack(fill=tk.BOTH, expand=True, pady=(2,0))
        tk.Label(simple, textvariable=self.status_var, anchor="w").pack(fill=tk.X, pady=(4,0))
        # --- Avancé ---
        adv = tk.Frame(nb, padx=12, pady=12); nb.add(adv, text="Avancé")
        # YAML
        cfg = tk.LabelFrame(adv, text="Règles & dictionnaires (YAML)", padx=8, pady=8); cfg.pack(fill=tk.X, pady=6)
        tk.Label(cfg, text="Fichier YAML :").grid(row=0, column=0, sticky="w")
        tk.Entry(cfg, textvariable=self.cfg_path, width=60).grid(row=0, column=1, sticky="we", padx=6)
        tk.Button(cfg, text="Parcourir", command=self._cfg_browse).grid(row=0, column=2)
        tk.Button(cfg, text="Créer/Charger", command=self._load_cfg).grid(row=0, column=3, padx=4)
        tk.Button(cfg, text="Sauver", command=self._save_cfg).grid(row=0, column=4)
        tk.Button(cfg, text="Recharger", command=self._reload_cfg).grid(row=0, column=5, padx=4)
        tk.Button(cfg, text="Restaurer défauts", command=self._restore_defaults).grid(row=0, column=6)
        cfg.grid_columnconfigure(1, weight=1)
        # Créateur de règle (résumé)
        rc = tk.LabelFrame(adv, text="Créer rapidement une règle", padx=8, pady=8); rc.pack(fill=tk.X, pady=6)
        tk.Label(rc, text="Exemple (copiez une ligne du PDF) :").grid(row=0, column=0, sticky="w")
        self.rule_example = tk.Entry(rc, width=80); self.rule_example.grid(row=0, column=1, columnspan=4, sticky="we", padx=6)
        tk.Label(rc, text="Type :").grid(row=1, column=0, sticky="e")
        self.rule_type = ttk.Combobox(rc, values=["Mot exact", "Forme proche", "Modèle avancé"], state="readonly"); self.rule_type.set("Mot exact"); self.rule_type.grid(row=1, column=1, sticky="w")
        tk.Label(rc, text="Remplacer par :").grid(row=1, column=2, sticky="e")
        self.rule_placeholder = tk.Entry(rc, width=18); self.rule_placeholder.insert(0, "[MASK]"); self.rule_placeholder.grid(row=1, column=3, sticky="w")
        tk.Label(rc, text="Où :").grid(row=1, column=4, sticky="e")
        self.rule_scope = ttk.Combobox(rc, values=["partout", "narratif", "tables_valeur", "entetes_pieds"], state="readonly"); self.rule_scope.set("partout"); self.rule_scope.grid(row=1, column=5, sticky="w")
        self.flag_ic = tk.BooleanVar(value=True); self.flag_bow = tk.BooleanVar(value=True)
        tk.Checkbutton(rc, text="Ignorer la casse (A=a)", variable=self.flag_ic).grid(row=2, column=1, sticky="w")
        tk.Checkbutton(rc, text="Respecter les mots entiers", variable=self.flag_bow).grid(row=2, column=2, sticky="w")
        tk.Button(rc, text="Prévisualiser", command=self._preview_rule).grid(row=2, column=4)
        tk.Button(rc, text="Enregistrer la règle", command=self._save_rule).grid(row=2, column=5)
        # Gestionnaire de modèles ONNX
        mm = tk.LabelFrame(adv, text="Renforcement NER (ONNX – narratif uniquement)", padx=8, pady=8); mm.pack(fill=tk.X, pady=6)
        tk.Checkbutton(mm, text="Activer le renforcement NER", variable=self.use_hf).grid(row=0, column=0, sticky="w")
        tk.Label(mm, text="Modèle :").grid(row=1, column=0, sticky="e")
        # Fusionner les catalogues ONNX + EDS-Pseudo
        catalog = {}
        if self._onnx_manager:
            catalog.update(self._onnx_manager.models_catalog())
        if self._eds_manager:
            catalog.update(self._eds_manager.models_catalog())
        self._merged_catalog = catalog
        self.model_combo = ttk.Combobox(mm, values=list(catalog.keys()), state="readonly")
        if self.model_combo["values"]:
            self.model_combo.set(self.model_combo["values"][0])
        self.model_combo.grid(row=1, column=1, sticky="w")
        tk.Label(mm, text="ou ID/chemin :").grid(row=1, column=2, sticky="e")
        tk.Entry(mm, textvariable=self.model_id, width=36).grid(row=1, column=3, sticky="w")
        tk.Button(mm, text="Charger", command=self._load_model).grid(row=1, column=4, padx=4)
        tk.Button(mm, text="Décharger", command=self._unload_model).grid(row=1, column=5)
        tk.Label(mm, textvariable=self.model_status).grid(row=2, column=0, columnspan=6, sticky="w", pady=(4,2))
        ToolTip(mm, "Le modèle détecte les noms propres dans le texte libre. Les tableaux (clé : valeur) ne sont pas modifiés.")
        tk.Label(mm, text="Seuils (0–1)").grid(row=3, column=0, sticky="e")
        tk.Label(mm, text="PERSON").grid(row=3, column=1, sticky="w")
        tk.Entry(mm, textvariable=self.th_per, width=6).grid(row=3, column=2, sticky="w")
        tk.Label(mm, text="ORG").grid(row=3, column=3, sticky="w")
        tk.Entry(mm, textvariable=self.th_org, width=6).grid(row=3, column=4, sticky="w")
        tk.Label(mm, text="LOC").grid(row=3, column=5, sticky="w")
        tk.Entry(mm, textvariable=self.th_loc, width=6).grid(row=3, column=6, sticky="w")
        mm.grid_columnconfigure(1, weight=1)
    # YAML helpers
    def _ensure_cfg_exists(self):
        p = Path(self.cfg_path.get()); p.parent.mkdir(parents=True, exist_ok=True)
        if not p.exists(): p.write_text(DEFAULTS_CFG_TEXT, encoding="utf-8")
    def _cfg_browse(self):
        d = filedialog.asksaveasfilename(defaultextension=".yml", filetypes=[("YAML","*.yml *.yaml"), ("Tous","*.*")])
        if d: self.cfg_path.set(d)
    def _load_cfg(self):
        if yaml is None:
            messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml)."); return
        self._ensure_cfg_exists()
        try:
            self.cfg_data = yaml.safe_load(Path(self.cfg_path.get()).read_text(encoding="utf-8")) or {}
            self._log(f"Règles chargées: {self.cfg_path.get()}")
        except Exception as e:
            messagebox.showerror("Fichier de règles invalide", str(e))
    def _save_cfg(self):
        if yaml is None:
            messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml)."); return
        try:
            Path(self.cfg_path.get()).write_text(yaml.safe_dump(self.cfg_data or yaml.safe_load(DEFAULTS_CFG_TEXT), allow_unicode=True, sort_keys=False), encoding="utf-8")
            self._log("Règles sauvegardées.")
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'écrire le YAML: {e}")
    def _reload_cfg(self): self._load_cfg(); self._log("Règles rechargées.")
    def _restore_defaults(self):
        try:
            Path(self.cfg_path.get()).write_text(DEFAULTS_CFG_TEXT, encoding="utf-8"); self._log("CFG par défaut écrit."); self._load_cfg()
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'écrire le YAML par défaut: {e}")
    # Règles rapides (résumé)
    def _build_simple_regex(self, sample: str, bow: bool) -> str:
        s = sample.strip(); s = re.sub(r"\s+", r"\\s+", re.escape(s))
        return rf"\b{s}\b" if bow else s
    def _preview_rule(self):
        sample = getattr(self, 'rule_example').get().strip()
        if not sample: messagebox.showinfo("Info", "Exemple vide."); return
        rtype = getattr(self, 'rule_type').get(); ic = getattr(self, 'flag_ic').get(); bow = getattr(self, 'flag_bow').get()
        pattern = sample if rtype == "Modèle avancé" else self._build_simple_regex(sample, bow)
        try:
            rx = re.compile(pattern, re.IGNORECASE if ic else 0)
        except Exception as e:
            messagebox.showerror("Modèle invalide", str(e)); return
        folder = Path(self.dir_var.get().strip()); pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()]) if folder.is_dir() else []
        if not pdfs: messagebox.showinfo("Info", "Aucun PDF pour prévisualiser."); return
        try:
            pages_text, tables_lines = core.extract_text_three_passes(pdfs[0])
            text = "\n".join(pages_text) + "\n\n" + "\n".join("\n".join(r) for r in tables_lines)
            hits = len(rx.findall(text)); self._log(f"Prévisualisation: {hits} occurences sur {pdfs[0].name}")
        except Exception as e:
            self._log(f"Prévisualisation indisponible: {e}")
    def _save_rule(self):
        if yaml is None: messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml)."); return
        sample = getattr(self, 'rule_example').get().strip()
        if not sample: messagebox.showinfo("Info", "Exemple vide."); return
        rtype = getattr(self, 'rule_type').get(); ic = getattr(self, 'flag_ic').get(); bow = getattr(self, 'flag_bow').get(); placeholder = getattr(self, 'rule_placeholder').get().strip() or "[MASK]"; scope = getattr(self, 'rule_scope').get()
        cfg = self.cfg_data or {}; cfg.setdefault("blacklist", {}); cfg.setdefault("regex_overrides", [])
        if rtype == "Mot exact":
            lst = cfg["blacklist"].setdefault("force_mask_terms", [])
            if sample not in lst: lst.append(sample)
        elif rtype == "Forme proche":
            pattern = self._build_simple_regex(sample, bow)
            lst = cfg["blacklist"].setdefault("force_mask_regex", [])
            if pattern not in lst: lst.append(pattern)
        else:
            entry = {"name": f"custom_{len(cfg['regex_overrides'])+1}", "pattern": sample, "placeholder": placeholder, "flags": ["IGNORECASE"] if ic else [], "scope": scope}
            cfg["regex_overrides"].append(entry)
        self.cfg_data = cfg; self._save_cfg(); self._log("Règle ajoutée au YAML.")
    # Gestionnaire de modèles
    def _load_model(self):
        choice = self.model_combo.get().strip()
        mid = self.model_id.get().strip()
        model_id = self._merged_catalog.get(choice) if choice else None
        model_id = mid or model_id or "cmarkea/distilcamembert-base-ner"
        # Déterminer quel manager utiliser
        is_eds = False
        if self._eds_manager:
            eds_ids = set(self._eds_manager.models_catalog().values())
            if model_id in eds_ids:
                is_eds = True
        if is_eds:
            if not self._eds_manager:
                messagebox.showerror("edsnlp indisponible", "Installez : pip install 'edsnlp[ml]>=0.12.0'"); return
            manager = self._eds_manager
        else:
            if not self._onnx_manager:
                messagebox.showerror("ONNX indisponible", "Installez 'onnxruntime' et 'optimum'."); return
            manager = self._onnx_manager
        try:
            self.model_status.set("Chargement du modèle…")
            self.root.update_idletasks()
            manager.load(model_id)
            self._active_manager = manager
            label = "EDS-Pseudo" if is_eds else "ONNX"
            self.model_status.set(f"Modèle chargé ({label}) : {model_id}")
            self.use_hf.set(True)
        except Exception as e:
            self.model_status.set(f"Échec : {e}")
            self.use_hf.set(False)
    def _unload_model(self):
        if self._onnx_manager:
            self._onnx_manager.unload()
        if self._eds_manager:
            self._eds_manager.unload()
        self._active_manager = None
        self.model_status.set("Aucun modèle chargé.")
        self.use_hf.set(False)
    # Actions
    def _browse(self):
        d = filedialog.askdirectory();
        if d: self.dir_var.set(d)
    def _run(self):
        folder = Path(self.dir_var.get().strip())
        if not folder.is_dir(): messagebox.showwarning("Dossier invalide", "Choisissez un dossier contenant des PDF."); return
        self.btn_run.config(state=tk.DISABLED)
        threading.Thread(target=self._worker, args=(folder,), daemon=True).start()
    def _worker(self, folder: Path):
        try:
            pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()])
            if not pdfs: self._log("Aucun PDF trouvé."); return
            outdir = folder / "pseudonymise"; outdir.mkdir(exist_ok=True)
            ok = ko = 0; global_counts: Dict[str,int] = {}
            for i, pdf in enumerate(pdfs, start=1):
                self.status_var.set(f"{i}/{len(pdfs)} — {pdf.name}")
                make_vec = (self.format_var.get() == "vector"); make_ras = (self.format_var.get() == "raster")
                try:
                    active = self._active_manager
                    use_ner = bool(active and self.use_hf.get() and active.is_loaded())
                    thresholds = NerThresholds(self.th_per.get(), self.th_org.get(), self.th_loc.get(), 0.85) if (use_ner and NerThresholds and not (EdsPseudoManager and isinstance(active, EdsPseudoManager))) else None
                    outputs = core.process_pdf(
                        pdf_path=pdf,
                        out_dir=outdir,
                        make_vector_redaction=make_vec,
                        also_make_raster_burn=make_ras,
                        config_path=Path(self.cfg_path.get()),
                        use_hf=use_ner,
                        ner_manager=active,
                        ner_thresholds=thresholds,
                    )
                    self._log("✓ " + pdf.name)
                    for k, v in outputs.items(): self._log(f"  - {k}: {v}")
                    # Résumé
                    audit_path = Path(outputs.get("audit", ""))
                    counts = self._count_audit(audit_path)
                    if counts:
                        self._log("  ~ résumé : " + ", ".join(f"{k}={v}" for k, v in sorted(counts.items())))
                        for k,v in counts.items(): global_counts[k] = global_counts.get(k,0)+v
                    ok += 1
                except Exception as e:
                    self._log(f"✗ {pdf.name} → ERREUR: {e}"); ko += 1
            self.status_var.set(f"Terminé : {ok} OK, {ko} erreurs. Sortie: {outdir}")
            if ok: self.btn_open_out.config(state=tk.NORMAL); self._last_outdir = outdir
            if ok: self._log("RÉSUMÉ DU LOT : " + ", ".join(f"{k}={v}" for k, v in sorted(global_counts.items())))
        finally:
            self.btn_run.config(state=tk.NORMAL)
    def _count_audit(self, audit_path: Path) -> Dict[str,int]:
        d: Dict[str,int] = {}
        try:
            with open(audit_path, "r", encoding="utf-8") as f:
                for line in f:
                    try:
                        obj = json.loads(line); k = obj.get("kind", "?"); d[k] = d.get(k,0)+1
                    except Exception: pass
        except Exception: pass
        return d
    def _open_out(self):
        p = getattr(self, "_last_outdir", None)
        if p: open_folder(p)
    def _pump_logs(self):
        try:
            while True:
                msg = self.queue.get_nowait(); self.txt.insert(tk.END, msg + "\n"); self.txt.see(tk.END)
        except queue.Empty:
            pass
        finally:
            self.root.after(60, self._pump_logs)
    def _log(self, msg: str): self.queue.put(msg)
    def _show_help(self):
        messagebox.showinfo(
            "Aide (2 minutes)",
            "1) Choisissez un dossier avec vos PDF.\n"
            "2) Choisissez le format du document final.\n"
            "   - PDF anonymisé (léger) : texte supprimé + boîtes noires (sélection possible).\n"
            "   - PDF image (très sûr) : chaque page en image, aucun texte résiduel.\n"
            "3) (Option) Chargez un modèle pour renforcer la détection des noms dans le texte libre.\n"
            "4) Cliquez sur Anonymiser, puis ouvrez le dossier de résultats.",
        )
 if __name__ == "__main__":
    root = tk.Tk(); App(root); root.mainloop()
--- a/Pseudonymisation_Gui_V5.py
+++ b/Pseudonymisation_Gui_V5.py
@@ -0,0 +1,891 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 Pseudonymisation – GUI v5 (Vue unique épurée)
 ----------------------------------------------
 - Vue unique en 2 étapes : dossier → lancer (les deux formats sont générés)
 - Thème système natif (sv_ttk optionnel, fallback clam)
 - Backend NER ONNX/EDS-Pseudo conservé en interne
 - Pas d'onglet Avancé (NER + YAML chargés silencieusement)
 Fichiers requis à côté :
  - anonymizer_core_refactored_onnx.py
  - ner_manager_onnx.py
 """
 from __future__ import annotations
 import enum
 import json
 import os
 import platform
 import queue
 import re
 import shutil
 import subprocess
 import threading
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any, Dict, List, Optional
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 # ---------------------------------------------------------------------------
 # Core
 # ---------------------------------------------------------------------------
 try:
    import anonymizer_core_refactored_onnx as core
 except Exception as e:
    raise SystemExit(f"Impossible d'importer le core ONNX : {e}")
 try:
    from ner_manager_onnx import NerModelManager, NerThresholds
 except Exception:
    NerModelManager = None  # type: ignore
    NerThresholds = None  # type: ignore
 try:
    from eds_pseudo_manager import EdsPseudoManager
 except Exception:
    EdsPseudoManager = None  # type: ignore
 try:
    import yaml
 except Exception:
    yaml = None
 # ---------------------------------------------------------------------------
 # Thème optionnel
 # ---------------------------------------------------------------------------
 try:
    import sv_ttk  # type: ignore
 except ImportError:
    sv_ttk = None
 # ---------------------------------------------------------------------------
 # Constantes
 # ---------------------------------------------------------------------------
 APP_TITLE = "Pseudonymisation de PDF"
 APP_VERSION = "v5.0"
 DEFAULT_CFG = Path("config/dictionnaires.yml")
 DEFAULTS_CFG_TEXT = r"""
 # dictionnaires.yml – valeurs par défaut (bloc littéral pour les regex)
 version: 1
 encoding: "utf-8"
 normalization: "NFKC"
 whitelist:
  sections_titres: [DIM, GHM, GHS, RUM, COMPTE, RENDU, DIAGNOSTIC]
  noms_maj_excepts: ["Médecin DIM", "Praticien conseil"]
  org_gpe_keep: true
 blacklist:
  force_mask_terms: []
  force_mask_regex: []
 kv_labels_preserve: [FINESS, IPP, "N° OGC", Etablissement]
 regex_overrides:
  - name: OGC_court
    pattern: |-
      \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
    placeholder: '[OGC]'
    flags: [IGNORECASE]
 flags:
  case_insensitive: true
  unicode_word_boundaries: true
  regex_engine: "python"
 """
 # Couleurs
 CLR_PRIMARY = "#2563eb"
 CLR_PRIMARY_LIGHT = "#dbeafe"
 CLR_GREEN = "#16a34a"
 CLR_GREEN_LIGHT = "#dcfce7"
 CLR_RED = "#dc2626"
 CLR_RED_LIGHT = "#fee2e2"
 CLR_BLUE_LIGHT = "#eff6ff"
 CLR_CARD_BG = "#ffffff"
 CLR_CARD_BORDER = "#d1d5db"
 CLR_BG = "#f9fafb"
 CLR_TEXT = "#111827"
 CLR_TEXT_SECONDARY = "#6b7280"
 # ---------------------------------------------------------------------------
 # Messages worker → UI
 # ---------------------------------------------------------------------------
 class MsgType(enum.Enum):
    LOG = "log"
    PROGRESS = "progress"
    DONE = "done"
@dataclass
 class UiMessage:
    kind: MsgType
    text: str = ""
    current: int = 0
    total: int = 0
    filename: str = ""
    ok: int = 0
    ko: int = 0
    masked: int = 0
    outdir: str = ""
 # ---------------------------------------------------------------------------
 # Helpers
 # ---------------------------------------------------------------------------
 def open_folder(path: Path):
    try:
        if platform.system() == "Windows":
            os.startfile(str(path))  # type: ignore
        elif platform.system() == "Darwin":
            subprocess.Popen(["open", str(path)])
        else:
            subprocess.Popen(["xdg-open", str(path)])
    except Exception:
        pass
 def _detect_font() -> str:
    """Retourne la meilleure police sans-serif disponible."""
    for name in ("Noto Sans", "Ubuntu", "Cantarell", "Helvetica Neue", "Helvetica"):
        try:
            test = tk.Label(font=(name, 10))
            actual = test.cget("font")
            test.destroy()
            if name.lower().replace(" ", "") in actual.lower().replace(" ", ""):
                return name
        except Exception:
            continue
    return "TkDefaultFont"
 def _detect_dark_mode() -> bool:
    """Détecte le thème sombre GNOME."""
    try:
        result = subprocess.run(
            ["gsettings", "get", "org.gnome.desktop.interface", "color-scheme"],
            capture_output=True, text=True, timeout=2,
        )
        return "dark" in result.stdout.lower()
    except Exception:
        return False
 # ---------------------------------------------------------------------------
 # ToolTip amélioré
 # ---------------------------------------------------------------------------
 class ToolTip:
    def __init__(self, widget: tk.Widget, text: str, delay: int = 400):
        self.widget = widget
        self.text = text
        self.delay = delay
        self.tip: Optional[tk.Toplevel] = None
        self._after_id: Optional[str] = None
        widget.bind("<Enter>", self._schedule)
        widget.bind("<Leave>", self.hide)
    def _schedule(self, *_):
        self._cancel()
        self._after_id = self.widget.after(self.delay, self._show)
    def _cancel(self):
        if self._after_id:
            self.widget.after_cancel(self._after_id)
            self._after_id = None
    def _show(self):
        if self.tip:
            return
        x = self.widget.winfo_rootx() + 20
        y = self.widget.winfo_rooty() + self.widget.winfo_height() + 4
        self.tip = tw = tk.Toplevel(self.widget)
        tw.wm_overrideredirect(True)
        tw.wm_geometry(f"+{x}+{y}")
        lbl = tk.Label(
            tw, text=self.text, justify=tk.LEFT,
            background="#1f2937", foreground="#f9fafb",
            relief=tk.SOLID, borderwidth=1,
            padx=8, pady=5, wraplength=320,
        )
        lbl.pack(ipadx=1)
    def hide(self, *_):
        self._cancel()
        if self.tip:
            self.tip.destroy()
            self.tip = None
 # ---------------------------------------------------------------------------
 # Application principale
 # ---------------------------------------------------------------------------
 class App:
    def __init__(self, root: tk.Tk):
        self.root = root
        self.root.title(APP_TITLE)
        self.root.geometry("780x820")
        self.root.minsize(600, 650)
        # --- Thème ---
        self._apply_theme()
        # --- Polices ---
        self._font_family = _detect_font()
        self._f_title = (self._font_family, 20, "bold")
        self._f_body = (self._font_family, 11)
        self._f_body_bold = (self._font_family, 11, "bold")
        self._f_button = (self._font_family, 13, "bold")
        self._f_stat = (self._font_family, 24, "bold")
        self._f_small = (self._font_family, 10)
        self._f_card_title = (self._font_family, 12, "bold")
        self._f_card_desc = (self._font_family, 10)
        # --- Variables ---
        self.dir_var = tk.StringVar()
        self.status_var = tk.StringVar(value="Prêt.")
        self.cfg_path = tk.StringVar(value=str(DEFAULT_CFG))
        self.queue: "queue.Queue[UiMessage]" = queue.Queue()
        # --- NER (interne) ---
        self.use_hf = False
        self.th_per = 0.90
        self.th_org = 0.90
        self.th_loc = 0.90
        self._onnx_manager: Optional[Any] = NerModelManager(cache_dir=Path("models")) if NerModelManager else None
        self._eds_manager: Optional[Any] = EdsPseudoManager(cache_dir=Path("models")) if EdsPseudoManager else None
        self._active_manager: Optional[Any] = None
        self.cfg_data: Dict[str, Any] = {}
        # --- Fusion catalogue modèles ---
        catalog: Dict[str, str] = {}
        if self._onnx_manager:
            catalog.update(self._onnx_manager.models_catalog())
        if self._eds_manager:
            catalog.update(self._eds_manager.models_catalog())
        self._merged_catalog = catalog
        # --- Résultats ---
        self._last_outdir: Optional[Path] = None
        # --- Construction UI ---
        self._build_ui()
        self._pump_logs()
        self._ensure_cfg_exists()
        self._load_cfg()
    # ---------------------------------------------------------------
    # Thème
    # ---------------------------------------------------------------
    def _apply_theme(self):
        if sv_ttk is not None:
            mode = "dark" if _detect_dark_mode() else "light"
            sv_ttk.set_theme(mode)
        else:
            try:
                style = ttk.Style()
                style.theme_use("clam")
            except Exception:
                pass
    # ---------------------------------------------------------------
    # Construction de la vue unique
    # ---------------------------------------------------------------
    def _build_ui(self):
        self.root.configure(bg=CLR_BG)
        # Conteneur scrollable
        outer = tk.Frame(self.root, bg=CLR_BG)
        outer.pack(fill=tk.BOTH, expand=True)
        canvas = tk.Canvas(outer, bg=CLR_BG, highlightthickness=0)
        scrollbar = ttk.Scrollbar(outer, orient=tk.VERTICAL, command=canvas.yview)
        self._scroll_frame = tk.Frame(canvas, bg=CLR_BG)
        self._scroll_frame.bind(
            "<Configure>",
            lambda e: canvas.configure(scrollregion=canvas.bbox("all")),
        )
        canvas_window = canvas.create_window((0, 0), window=self._scroll_frame, anchor="nw")
        canvas.configure(yscrollcommand=scrollbar.set)
        # Ajuster la largeur du frame interne à celle du canvas
        def _on_canvas_configure(event):
            canvas.itemconfig(canvas_window, width=event.width)
        canvas.bind("<Configure>", _on_canvas_configure)
        # Scroll molette
        def _on_mousewheel(event):
            canvas.yview_scroll(int(-1 * (event.delta / 120)), "units")
        def _on_mousewheel_linux(event):
            if event.num == 4:
                canvas.yview_scroll(-3, "units")
            elif event.num == 5:
                canvas.yview_scroll(3, "units")
        canvas.bind_all("<MouseWheel>", _on_mousewheel)
        canvas.bind_all("<Button-4>", _on_mousewheel_linux)
        canvas.bind_all("<Button-5>", _on_mousewheel_linux)
        canvas.pack(side=tk.LEFT, fill=tk.BOTH, expand=True)
        scrollbar.pack(side=tk.RIGHT, fill=tk.Y)
        main = self._scroll_frame
        pad_x = 32
        # --- Titre ---
        tk.Label(
            main, text=APP_TITLE, font=self._f_title,
            bg=CLR_BG, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X, padx=pad_x, pady=(24, 2))
        tk.Label(
            main,
            text="Masquez automatiquement les données personnelles de vos documents PDF.",
            font=self._f_body, bg=CLR_BG, fg=CLR_TEXT_SECONDARY, anchor="w",
        ).pack(fill=tk.X, padx=pad_x, pady=(0, 18))
        ttk.Separator(main).pack(fill=tk.X, padx=pad_x, pady=(0, 18))
        # =============================================================
        # ÉTAPE 1 — Choix du dossier
        # =============================================================
        tk.Label(
            main, text="1.  Choisir les documents", font=self._f_body_bold,
            bg=CLR_BG, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X, padx=pad_x, pady=(0, 6))
        self._folder_zone = tk.Frame(
            main, bg=CLR_CARD_BG, highlightbackground=CLR_CARD_BORDER,
            highlightthickness=2, cursor="hand2",
        )
        self._folder_zone.pack(fill=tk.X, padx=pad_x, pady=(0, 18))
        # Contenu initial (invite à cliquer)
        self._folder_inner = tk.Frame(self._folder_zone, bg=CLR_CARD_BG)
        self._folder_inner.pack(fill=tk.X, padx=20, pady=18)
        self._folder_icon_lbl = tk.Label(
            self._folder_inner, text="\U0001f4c2", font=(self._font_family, 28),
            bg=CLR_CARD_BG,
        )
        self._folder_icon_lbl.pack()
        self._folder_text_lbl = tk.Label(
            self._folder_inner,
            text="Cliquez pour choisir un dossier contenant vos PDF",
            font=self._f_body, bg=CLR_CARD_BG, fg=CLR_TEXT_SECONDARY,
        )
        self._folder_text_lbl.pack(pady=(4, 0))
        # Rendre toute la zone cliquable
        for w in (self._folder_zone, self._folder_inner, self._folder_icon_lbl, self._folder_text_lbl):
            w.bind("<Button-1>", lambda e: self._browse())
        # =============================================================
        # ÉTAPE 2 — Info formats générés
        # =============================================================
        tk.Label(
            main, text="2.  Formats générés", font=self._f_body_bold,
            bg=CLR_BG, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X, padx=pad_x, pady=(0, 6))
        info_frame = tk.Frame(
            main, bg=CLR_BLUE_LIGHT,
            highlightbackground=CLR_CARD_BORDER, highlightthickness=1,
        )
        info_frame.pack(fill=tk.X, padx=pad_x, pady=(0, 18))
        info_inner = tk.Frame(info_frame, bg=CLR_BLUE_LIGHT)
        info_inner.pack(fill=tk.X, padx=16, pady=12)
        tk.Label(
            info_inner,
            text="Les deux formats sont générés automatiquement :",
            font=self._f_body_bold, bg=CLR_BLUE_LIGHT, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X)
        tk.Label(
            info_inner,
            text=("\u2022  PDF Image — sécurité maximale, chaque page en image, aucun texte résiduel\n"
                  "\u2022  PDF Anonymisé — structure préservée comme l'original, fichier léger"),
            font=self._f_card_desc, bg=CLR_BLUE_LIGHT, fg=CLR_TEXT_SECONDARY,
            anchor="w", justify=tk.LEFT,
        ).pack(fill=tk.X, pady=(4, 0))
        # =============================================================
        # BOUTON LANCER
        # =============================================================
        self.btn_run = tk.Button(
            main, text="Lancer la pseudonymisation",
            font=self._f_button, bg=CLR_PRIMARY, fg="white",
            activebackground="#1d4ed8", activeforeground="white",
            relief=tk.FLAT, cursor="hand2", pady=10,
            command=self._run,
        )
        self.btn_run.pack(fill=tk.X, padx=pad_x, pady=(0, 4))
        # Lien aide
        help_lbl = tk.Label(
            main, text="Comment ça marche ?", font=self._f_small,
            bg=CLR_BG, fg=CLR_PRIMARY, cursor="hand2",
        )
        help_lbl.pack(pady=(0, 18))
        help_lbl.bind("<Button-1>", lambda e: self._show_help())
        # =============================================================
        # BARRE DE PROGRESSION (masquée)
        # =============================================================
        self._progress_frame = tk.Frame(main, bg=CLR_BG)
        # NE PAS pack — sera affiché dynamiquement
        self._progressbar = ttk.Progressbar(
            self._progress_frame, orient=tk.HORIZONTAL, mode="determinate",
        )
        self._progressbar.pack(fill=tk.X, padx=0, pady=(0, 4))
        self._progress_label = tk.Label(
            self._progress_frame, text="", font=self._f_small,
            bg=CLR_BG, fg=CLR_TEXT_SECONDARY, anchor="w",
        )
        self._progress_label.pack(fill=tk.X)
        # =============================================================
        # SECTION RÉSULTATS (masquée)
        # =============================================================
        self._results_frame = tk.Frame(main, bg=CLR_BG)
        # NE PAS pack
        tk.Label(
            self._results_frame, text="Résultats", font=self._f_body_bold,
            bg=CLR_BG, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X, pady=(0, 8))
        stats_row = tk.Frame(self._results_frame, bg=CLR_BG)
        stats_row.pack(fill=tk.X, pady=(0, 12))
        stats_row.columnconfigure(0, weight=1)
        stats_row.columnconfigure(1, weight=1)
        stats_row.columnconfigure(2, weight=1)
        self._stat_files = self._make_stat_card(stats_row, "0", "fichiers traités", CLR_GREEN, CLR_GREEN_LIGHT, 0)
        self._stat_masked = self._make_stat_card(stats_row, "0", "données masquées", CLR_PRIMARY, CLR_PRIMARY_LIGHT, 1)
        self._stat_errors = self._make_stat_card(stats_row, "0", "erreurs", CLR_TEXT_SECONDARY, "#f3f4f6", 2)
        self.btn_open_out = tk.Button(
            self._results_frame, text="Ouvrir le dossier de résultats",
            font=self._f_button, bg=CLR_GREEN, fg="white",
            activebackground="#15803d", activeforeground="white",
            relief=tk.FLAT, cursor="hand2", pady=10,
            command=self._open_out,
        )
        self.btn_open_out.pack(fill=tk.X, pady=(0, 8))
        # Toggle journal
        self._log_visible = False
        self._log_toggle = tk.Label(
            self._results_frame, text="Voir le journal détaillé \u25BC",
            font=self._f_small, bg=CLR_BG, fg=CLR_PRIMARY, cursor="hand2",
        )
        self._log_toggle.pack(pady=(0, 4))
        self._log_toggle.bind("<Button-1>", lambda e: self._toggle_log())
        self._log_frame = tk.Frame(self._results_frame, bg=CLR_BG)
        # NE PAS pack
        self.txt = tk.Text(
            self._log_frame, height=14, font=self._f_small,
            bg="#f3f4f6", fg=CLR_TEXT, relief=tk.FLAT, wrap=tk.WORD,
            state=tk.DISABLED,
        )
        log_scrollbar = ttk.Scrollbar(self._log_frame, command=self.txt.yview)
        self.txt.configure(yscrollcommand=log_scrollbar.set)
        self.txt.pack(side=tk.LEFT, fill=tk.BOTH, expand=True)
        log_scrollbar.pack(side=tk.RIGHT, fill=tk.Y)
        # =============================================================
        # BARRE DE STATUT
        # =============================================================
        ttk.Separator(main).pack(fill=tk.X, padx=pad_x, pady=(18, 0))
        status_bar = tk.Frame(main, bg=CLR_BG)
        status_bar.pack(fill=tk.X, padx=pad_x, pady=(6, 12))
        tk.Label(
            status_bar, textvariable=self.status_var, font=self._f_small,
            bg=CLR_BG, fg=CLR_TEXT_SECONDARY, anchor="w",
        ).pack(side=tk.LEFT)
        tk.Label(
            status_bar, text=APP_VERSION, font=self._f_small,
            bg=CLR_BG, fg=CLR_TEXT_SECONDARY, anchor="e",
        ).pack(side=tk.RIGHT)
    # ---------------------------------------------------------------
    # Cartes de statistiques
    # ---------------------------------------------------------------
    def _make_stat_card(self, parent, number: str, label: str,
                        fg_color: str, bg_color: str, col: int) -> Dict[str, tk.Label]:
        padx = (0, 4) if col == 0 else (4, 4) if col == 1 else (4, 0)
        frame = tk.Frame(parent, bg=bg_color, highlightbackground=bg_color, highlightthickness=1)
        frame.grid(row=0, column=col, sticky="nsew", padx=padx)
        num_lbl = tk.Label(
            frame, text=number, font=self._f_stat,
            bg=bg_color, fg=fg_color,
        )
        num_lbl.pack(pady=(12, 2))
        txt_lbl = tk.Label(
            frame, text=label, font=self._f_small,
            bg=bg_color, fg=CLR_TEXT_SECONDARY,
        )
        txt_lbl.pack(pady=(0, 12))
        return {"frame": frame, "number": num_lbl, "label": txt_lbl}
    def _update_stat_card(self, card: Dict[str, tk.Label], value: int,
                          fg_color: str, bg_color: str):
        card["number"].configure(text=str(value), fg=fg_color, bg=bg_color)
        card["frame"].configure(bg=bg_color, highlightbackground=bg_color)
        card["label"].configure(bg=bg_color)
    # ---------------------------------------------------------------
    # Actions dossier
    # ---------------------------------------------------------------
    def _browse(self):
        d = filedialog.askdirectory()
        if d:
            self.dir_var.set(d)
            self._update_folder_display()
    def _update_folder_display(self):
        folder = self.dir_var.get()
        if not folder:
            return
        # Compter les PDF
        pdf_count = 0
        try:
            pdf_count = len([p for p in Path(folder).glob("*.pdf") if p.is_file()])
        except Exception:
            pass
        # Vider et reconstruire l'intérieur
        for w in self._folder_inner.winfo_children():
            w.destroy()
        row = tk.Frame(self._folder_inner, bg=CLR_CARD_BG)
        row.pack(fill=tk.X)
        tk.Label(
            row, text="\U0001f4c2", font=(self._font_family, 16),
            bg=CLR_CARD_BG,
        ).pack(side=tk.LEFT, padx=(0, 8))
        info_frame = tk.Frame(row, bg=CLR_CARD_BG)
        info_frame.pack(side=tk.LEFT, fill=tk.X, expand=True)
        # Chemin (tronqué si trop long)
        display_path = folder
        if len(display_path) > 60:
            display_path = "..." + display_path[-57:]
        tk.Label(
            info_frame, text=display_path, font=self._f_body_bold,
            bg=CLR_CARD_BG, fg=CLR_TEXT, anchor="w",
        ).pack(fill=tk.X)
        suffix = "PDF trouvé" if pdf_count <= 1 else "PDF trouvés"
        tk.Label(
            info_frame, text=f"{pdf_count} {suffix}",
            font=self._f_small, bg=CLR_CARD_BG, fg=CLR_TEXT_SECONDARY, anchor="w",
        ).pack(fill=tk.X)
        change_btn = tk.Label(
            row, text="Changer", font=self._f_small,
            bg=CLR_CARD_BG, fg=CLR_PRIMARY, cursor="hand2",
        )
        change_btn.pack(side=tk.RIGHT, padx=(8, 0))
        change_btn.bind("<Button-1>", lambda e: self._browse())
        # Mettre à jour la bordure
        self._folder_zone.configure(highlightbackground=CLR_GREEN)
    # ---------------------------------------------------------------
    # Lancement
    # ---------------------------------------------------------------
    def _run(self):
        folder = Path(self.dir_var.get().strip())
        if not folder.is_dir():
            messagebox.showwarning(
                "Dossier invalide",
                "Choisissez un dossier contenant des PDF.",
            )
            return
        pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()])
        if not pdfs:
            messagebox.showwarning(
                "Aucun PDF",
                "Le dossier sélectionné ne contient aucun fichier PDF.",
            )
            return
        self.btn_run.config(state=tk.DISABLED, bg="#93c5fd", text="Traitement en cours...")
        self._show_progress(total=len(pdfs))
        self._hide_results()
        threading.Thread(target=self._worker, args=(folder, pdfs), daemon=True).start()
    def _worker(self, folder: Path, pdfs: List[Path]):
        try:
            outdir = folder / "pseudonymise"
            outdir.mkdir(exist_ok=True)
            ok = ko = 0
            global_counts: Dict[str, int] = {}
            for i, pdf in enumerate(pdfs, start=1):
                self.queue.put(UiMessage(
                    kind=MsgType.PROGRESS, current=i, total=len(pdfs),
                    filename=pdf.name,
                ))
                try:
                    active = self._active_manager
                    use_ner = bool(active and self.use_hf and hasattr(active, 'is_loaded') and active.is_loaded())
                    thresholds = None
                    if use_ner and NerThresholds and not (EdsPseudoManager and isinstance(active, EdsPseudoManager)):
                        thresholds = NerThresholds(self.th_per, self.th_org, self.th_loc, 0.85)
                    outputs = core.process_pdf(
                        pdf_path=pdf,
                        out_dir=outdir,
                        make_vector_redaction=True,
                        also_make_raster_burn=True,
                        config_path=Path(self.cfg_path.get()),
                        use_hf=use_ner,
                        ner_manager=active,
                        ner_thresholds=thresholds,
                    )
                    self.queue.put(UiMessage(kind=MsgType.LOG, text=f"\u2713 {pdf.name}"))
                    for k, v in outputs.items():
                        self.queue.put(UiMessage(kind=MsgType.LOG, text=f"  - {k}: {v}"))
                    audit_path = Path(outputs.get("audit", ""))
                    counts = self._count_audit(audit_path)
                    if counts:
                        self.queue.put(UiMessage(
                            kind=MsgType.LOG,
                            text="  ~ résumé : " + ", ".join(f"{k}={v}" for k, v in sorted(counts.items())),
                        ))
                        for k, v in counts.items():
                            global_counts[k] = global_counts.get(k, 0) + v
                    ok += 1
                except Exception as e:
                    self.queue.put(UiMessage(kind=MsgType.LOG, text=f"\u2717 {pdf.name} \u2192 ERREUR: {e}"))
                    ko += 1
            total_masked = sum(global_counts.values())
            self.queue.put(UiMessage(
                kind=MsgType.DONE, ok=ok, ko=ko, masked=total_masked,
                outdir=str(outdir),
            ))
            if ok:
                self.queue.put(UiMessage(
                    kind=MsgType.LOG,
                    text="RÉSUMÉ DU LOT : " + ", ".join(f"{k}={v}" for k, v in sorted(global_counts.items())),
                ))
        except Exception as e:
            self.queue.put(UiMessage(kind=MsgType.LOG, text=f"Erreur fatale : {e}"))
            self.queue.put(UiMessage(kind=MsgType.DONE, ok=0, ko=len(pdfs), masked=0, outdir=""))
    # ---------------------------------------------------------------
    # Pompe de messages
    # ---------------------------------------------------------------
    def _pump_logs(self):
        try:
            while True:
                msg = self.queue.get_nowait()
                if msg.kind == MsgType.LOG:
                    self._append_log(msg.text)
                elif msg.kind == MsgType.PROGRESS:
                    self._update_progress(msg.current, msg.total, msg.filename)
                elif msg.kind == MsgType.DONE:
                    self._on_done(msg)
        except queue.Empty:
            pass
        finally:
            self.root.after(60, self._pump_logs)
    def _append_log(self, text: str):
        self.txt.configure(state=tk.NORMAL)
        self.txt.insert(tk.END, text + "\n")
        self.txt.see(tk.END)
        self.txt.configure(state=tk.DISABLED)
    # ---------------------------------------------------------------
    # Progression
    # ---------------------------------------------------------------
    def _show_progress(self, total: int):
        self._progressbar.configure(maximum=total, value=0)
        self._progress_label.configure(text="")
        self._progress_frame.pack(fill=tk.X, padx=32, pady=(0, 18),
                                   before=self._results_frame if self._results_frame.winfo_manager() else None)
    def _hide_progress(self):
        self._progress_frame.pack_forget()
    def _update_progress(self, current: int, total: int, filename: str):
        self._progressbar.configure(value=current)
        self._progress_label.configure(text=f"{current}/{total} — {filename}")
        self.status_var.set(f"{current}/{total} — {filename}")
    # ---------------------------------------------------------------
    # Résultats
    # ---------------------------------------------------------------
    def _show_results(self, ok: int, ko: int, masked: int):
        self._update_stat_card(self._stat_files, ok, CLR_GREEN, CLR_GREEN_LIGHT)
        self._update_stat_card(self._stat_masked, masked, CLR_PRIMARY, CLR_PRIMARY_LIGHT)
        err_fg = CLR_RED if ko > 0 else CLR_TEXT_SECONDARY
        err_bg = CLR_RED_LIGHT if ko > 0 else "#f3f4f6"
        self._update_stat_card(self._stat_errors, ko, err_fg, err_bg)
        self._results_frame.pack(fill=tk.X, padx=32, pady=(0, 12))
    def _hide_results(self):
        self._results_frame.pack_forget()
        self._log_frame.pack_forget()
        self._log_visible = False
        self._log_toggle.configure(text="Voir le journal détaillé \u25BC")
        # Vider le journal
        self.txt.configure(state=tk.NORMAL)
        self.txt.delete("1.0", tk.END)
        self.txt.configure(state=tk.DISABLED)
    def _on_done(self, msg: UiMessage):
        self._hide_progress()
        self.btn_run.config(state=tk.NORMAL, bg=CLR_PRIMARY, text="Lancer la pseudonymisation")
        self.status_var.set(f"Terminé : {msg.ok} OK, {msg.ko} erreurs.")
        if msg.outdir:
            self._last_outdir = Path(msg.outdir)
        self._show_results(msg.ok, msg.ko, msg.masked)
    # ---------------------------------------------------------------
    # Toggle journal
    # ---------------------------------------------------------------
    def _toggle_log(self):
        if self._log_visible:
            self._log_frame.pack_forget()
            self._log_toggle.configure(text="Voir le journal détaillé \u25BC")
        else:
            self._log_frame.pack(fill=tk.BOTH, expand=True, pady=(4, 0))
            self._log_toggle.configure(text="Masquer le journal \u25B2")
        self._log_visible = not self._log_visible
    # ---------------------------------------------------------------
    # Ouvrir dossier résultats
    # ---------------------------------------------------------------
    def _open_out(self):
        if self._last_outdir:
            open_folder(self._last_outdir)
    # ---------------------------------------------------------------
    # Aide
    # ---------------------------------------------------------------
    def _show_help(self):
        messagebox.showinfo(
            "Comment ça marche ?",
            "1) Choisissez le dossier contenant vos fichiers PDF.\n\n"
            "2) Cliquez sur « Lancer la pseudonymisation ».\n\n"
            "Deux fichiers sont générés pour chaque PDF :\n"
            "   \u2022 PDF Image : chaque page devient une image avec les\n"
            "     données masquées. Sécurité maximale.\n"
            "   \u2022 PDF Anonymisé : structure préservée comme l'original,\n"
            "     fichier léger et texte sélectionnable.\n\n"
            "Les résultats apparaissent dans un sous-dossier\n"
            "« pseudonymise » à côté de vos originaux.",
        )
    # ---------------------------------------------------------------
    # YAML (interne)
    # ---------------------------------------------------------------
    def _ensure_cfg_exists(self):
        p = Path(self.cfg_path.get())
        p.parent.mkdir(parents=True, exist_ok=True)
        if not p.exists():
            p.write_text(DEFAULTS_CFG_TEXT, encoding="utf-8")
    def _load_cfg(self):
        if yaml is None:
            return
        self._ensure_cfg_exists()
        try:
            self.cfg_data = yaml.safe_load(
                Path(self.cfg_path.get()).read_text(encoding="utf-8")
            ) or {}
        except Exception:
            pass
    # ---------------------------------------------------------------
    # Audit
    # ---------------------------------------------------------------
    def _count_audit(self, audit_path: Path) -> Dict[str, int]:
        d: Dict[str, int] = {}
        try:
            with open(audit_path, "r", encoding="utf-8") as f:
                for line in f:
                    try:
                        obj = json.loads(line)
                        k = obj.get("kind", "?")
                        d[k] = d.get(k, 0) + 1
                    except Exception:
                        pass
        except Exception:
            pass
        return d
    # ---------------------------------------------------------------
    # Modèles NER (API interne)
    # ---------------------------------------------------------------
    def _load_model(self, model_id: Optional[str] = None):
        mid = model_id or "cmarkea/distilcamembert-base-ner"
        is_eds = False
        if self._eds_manager:
            eds_ids = set(self._eds_manager.models_catalog().values())
            if mid in eds_ids:
                is_eds = True
        if is_eds:
            if not self._eds_manager:
                return
            manager = self._eds_manager
        else:
            if not self._onnx_manager:
                return
            manager = self._onnx_manager
        try:
            manager.load(mid)
            self._active_manager = manager
            self.use_hf = True
        except Exception:
            self.use_hf = False
    def _unload_model(self):
        if self._onnx_manager:
            self._onnx_manager.unload()
        if self._eds_manager:
            self._eds_manager.unload()
        self._active_manager = None
        self.use_hf = False
 # ---------------------------------------------------------------------------
 # Point d'entrée
 # ---------------------------------------------------------------------------
 if __name__ == "__main__":
    root = tk.Tk()
    App(root)
    root.mainloop()
--- a/Pseudonymisation_Pipeline_Robuste_Patch.py
+++ b/Pseudonymisation_Pipeline_Robuste_Patch.py
@@ -0,0 +1,167 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 GUI Pseudonymisation – Patch d'intégration du Core refactorisé (P0)
 -------------------------------------------------------------------
 Ce patch remplace le moteur interne d'extraction/anonymisation par le module
 `anonymizer_core_refactored.py` livré précédemment, et ajoute la génération
 optionnelle de PDF anonymisés avec **boîtes noires** (vector redaction et raster burn).
 Points clés :
 - Appel unique : core.process_pdf(pdf_path, out_dir, make_vector_redaction, also_make_raster_burn)
 - Sorties : .pseudonymise.txt, .audit.jsonl, .redacted_vector.pdf (option), .redacted_raster.pdf (option)
 - UI : ajout de cases à cocher pour activer la sortie PDF vector/raster ;
       désactivation du bouton « Télécharger » spaCy après succès.
 Dépendances : pdfplumber, pdfminer.six, pymupdf, pillow, spacy (optionnel pour l'UI), transformers (optionnel)
 """
 from __future__ import annotations
 import os
 import sys
 import json
 import queue
 import threading
 from dataclasses import asdict
 from pathlib import Path
 from typing import Dict
 # GUI
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 # Core refactorisé
 try:
    import anonymizer_core_refactored as core
 except Exception as e:
    raise SystemExit("Impossible d'importer anonymizer_core_refactored.py. Placez-le à côté de ce script.")
 APP_TITLE = "Pseudonymisation (Refactor P0 + PDF Redaction)"
 # ---------------- Utilitaires ----------------
 def resolve_base_dir() -> Path:
    return Path(getattr(sys, "_MEIPASS", Path(__file__).resolve().parent))
 # ---------------- Application ----------------
 class App:
    def __init__(self, root: tk.Tk):
        self.root = root
        self.root.title(APP_TITLE)
        self.root.geometry("1100x780")
        # State/UI vars
        self.dir_var = tk.StringVar()
        self.status_var = tk.StringVar(value="Prêt.")
        self.model_status_var = tk.StringVar(value="Modèle spaCy : optionnel (désactivez si absent)")
        self.queue: "queue.Queue[str]" = queue.Queue()
        # Options
        self.opt_vector_pdf = tk.BooleanVar(value=True)
        self.opt_raster_pdf = tk.BooleanVar(value=False)
        # spaCy (optionnel) — on garde l'emplacement UI mais on ne le rend pas bloquant
        self._build_ui()
        self._pump_logs()
    # ---------------- UI ----------------
    def _build_ui(self):
        top = tk.Frame(self.root, padx=10, pady=10)
        top.pack(fill=tk.BOTH, expand=True)
        # Ligne dossier
        row1 = tk.Frame(top); row1.pack(fill=tk.X)
        tk.Label(row1, text="Dossier PDF :").pack(side=tk.LEFT)
        tk.Entry(row1, textvariable=self.dir_var).pack(side=tk.LEFT, fill=tk.X, expand=True, padx=6)
        tk.Button(row1, text="Parcourir…", command=self._browse).pack(side=tk.LEFT, padx=3)
        self.btn_run = tk.Button(row1, text="Lancer", command=self._run)
        self.btn_run.pack(side=tk.LEFT, padx=3)
        # Carte spaCy (informative)
        card = tk.LabelFrame(top, text="Modèle spaCy (FR) — optionnel", padx=8, pady=8)
        card.pack(fill=tk.X, pady=6)
        self.btn_download = tk.Button(card, text="Télécharger (wheel recommandé)", command=self._download_spacy_disabled, state=tk.DISABLED)
        self.btn_download.pack(side=tk.RIGHT)
        tk.Label(card, textvariable=self.model_status_var, anchor="w").pack(fill=tk.X)
        # Options de sortie PDF
        opt = tk.LabelFrame(top, text="Sorties PDF anonymisées", padx=8, pady=8)
        opt.pack(fill=tk.X, pady=6)
        tk.Checkbutton(opt, text="PDF vectoriel (redaction réelle)", variable=self.opt_vector_pdf).pack(side=tk.LEFT, padx=6)
        tk.Checkbutton(opt, text="PDF raster (sécurité maximale)", variable=self.opt_raster_pdf).pack(side=tk.LEFT, padx=6)
        # Journal
        tk.Label(top, text="Journal :").pack(anchor="w")
        self.txt = tk.Text(top, height=22)
        self.txt.pack(fill=tk.BOTH, expand=True, pady=(2,0))
        tk.Label(top, textvariable=self.status_var, anchor="w").pack(fill=tk.X, pady=(4,0))
    def _download_spacy_disabled(self):
        messagebox.showinfo("Info", "L'installation via wheel est recommandée et gérée hors app. Bouton désactivé.")
    def _pump_logs(self):
        try:
            while True:
                msg = self.queue.get_nowait()
                self.txt.insert(tk.END, msg + "\n"); self.txt.see(tk.END)
        except queue.Empty:
            pass
        finally:
            self.root.after(60, self._pump_logs)
    # ---------------- Actions ----------------
    def _browse(self):
        d = filedialog.askdirectory()
        if d:
            self.dir_var.set(d)
    def _run(self):
        folder = Path(self.dir_var.get().strip())
        if not folder.is_dir():
            messagebox.showwarning("Dossier invalide", "Choisissez un dossier contenant des PDF.")
            return
        self.btn_run.config(state=tk.DISABLED)
        threading.Thread(target=self._worker, args=(folder,), daemon=True).start()
    def _worker(self, folder: Path):
        try:
            pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()])
            if not pdfs:
                self._log("Aucun PDF trouvé."); return
            outdir = folder / "pseudonymise"; outdir.mkdir(exist_ok=True)
            ok = ko = 0
            for i, pdf in enumerate(pdfs, start=1):
                self.status_var.set(f"{i}/{len(pdfs)} — {pdf.name}")
                try:
                    outputs = core.process_pdf(
                        pdf_path=pdf,
                        out_dir=outdir,
                        make_vector_redaction=self.opt_vector_pdf.get(),
                        also_make_raster_burn=self.opt_raster_pdf.get(),
                    )
                    # Log bref des artefacts
                    self._log("✓ " + pdf.name)
                    for k, v in outputs.items():
                        self._log(f"  - {k}: {v}")
                    ok += 1
                except Exception as e:
                    self._log(f"✗ {pdf.name} → ERREUR: {e}")
                    ko += 1
            self.status_var.set(f"Terminé : {ok} OK, {ko} erreurs. Sortie: {outdir}")
        finally:
            self.btn_run.config(state=tk.NORMAL)
    def _log(self, msg: str):
        self.queue.put(msg)
 # ---------------- main ----------------
 def main():
    root = tk.Tk()
    App(root)
    root.mainloop()
 if __name__ == "__main__":
    main()
--- a/anonymizer_core_refactored.py
+++ b/anonymizer_core_refactored.py
@@ -0,0 +1,422 @@
 # ==========================
 # FILE 1/2 — anonymizer_core_refactored.py  (FIXED)
 # ==========================
 from __future__ import annotations
 import io
 import json
 import re
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import List, Dict, Tuple, Optional, Any
 import pdfplumber
 from pdfminer.high_level import extract_text as pdfminer_extract_text
 from pdfminer.layout import LAParams
 from PIL import Image, ImageDraw
 # Optional deps
 try:
    import fitz  # PyMuPDF
 except Exception:
    fitz = None
 try:
    import yaml  # PyYAML for dictionaries
 except Exception:
    yaml = None
 # ----------------- Defaults & Config -----------------
 DEFAULTS_CFG = {
    "version": 1,
    "encoding": "utf-8",
    "normalization": "NFKC",
    "whitelist": {
        "sections_titres": ["DIM", "GHM", "GHS", "RUM", "COMPTE", "RENDU", "DIAGNOSTIC"],
        "noms_maj_excepts": ["Médecin DIM", "Praticien conseil"],
        "org_gpe_keep": True,
    },
    "blacklist": {
        "force_mask_terms": [],
        "force_mask_regex": [],
    },
    "kv_labels_preserve": ["FINESS", "IPP", "N° OGC", "Etablissement"],
    "regex_overrides": [
        {
            "name": "OGC_court",
            "pattern": r"\b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b",
            "placeholder": "[OGC]",
            "flags": ["IGNORECASE"],
        }
    ],
    "flags": {
        "case_insensitive": True,
        "unicode_word_boundaries": True,
        "regex_engine": "python",
    },
 }
 PLACEHOLDERS = {
    "EMAIL": "[EMAIL]",
    "TEL": "[TEL]",
    "IBAN": "[IBAN]",
    "NIR": "[NIR]",
    "IPP": "[IPP]",
    "FINESS": "[FINESS]",
    "OGC": "[OGC]",
    "NOM": "[NOM]",
    "VILLE": "[VILLE]",
    "ETAB": "[ETABLISSEMENT]",
    "MASK": "[MASK]",
 }
 CRITICAL_PII_KEYS = {"EMAIL", "TEL", "IBAN", "NIR", "IPP"}
 # Baseline regex
 RE_EMAIL = re.compile(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}")
 RE_TEL = re.compile(r"(?<!\d)(?:\+33\s?|0)\d(?:[ .-]?\d){8}(?!\d)")
 RE_IBAN = re.compile(r"\b[A-Z]{2}\d{2}[A-Z0-9]{11,30}\b")
 RE_IPP = re.compile(r"\bIPP\s*[:\-]?\s*([A-Za-z0-9]{6,})\b", re.IGNORECASE)
 RE_FINESS = re.compile(r"\bFINESS\s*[:\-]?\s*(\d{9})\b", re.IGNORECASE)
 RE_OGC = re.compile(r"\b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,})\b", re.IGNORECASE)  # élargi
 RE_NIR = re.compile(r"\b(\d{13})\s*([0-9]{2})\b")
 RE_PERSON_CONTEXT = re.compile(
    r"(?:(?:Dr\.?|Docteur|Mme|M\.|Monsieur|Nom\s*:\s*|Praticien|Médecin)\s*)([A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ\-\' ]{2,})"
 )
 SPLITTER = re.compile(r"\s*[:|;\t]\s*")
@dataclass
 class PiiHit:
    page: int
    kind: str
    original: str
    placeholder: str
    bbox_hint: Optional[Tuple[float, float, float, float]] = None
@dataclass
 class AnonResult:
    text_out: str
    tables_block: str
    audit: List[PiiHit] = field(default_factory=list)
 # ----------------- Config loader -----------------
 def load_dictionaries(config_path: Optional[Path]) -> Dict[str, Any]:
    cfg = DEFAULTS_CFG.copy()
    if config_path and config_path.exists() and yaml is not None:
        try:
            user = yaml.safe_load(config_path.read_text(encoding="utf-8")) or {}
            # shallow-merge for top-level keys
            for k, v in user.items():
                cfg[k] = v
        except Exception:
            pass
    return cfg
 # ----------------- Extraction -----------------
 def extract_text_two_passes(pdf_path: Path):
    pages_text: List[str] = []
    tables_lines: List[List[str]] = []
    with pdfplumber.open(pdf_path) as pdf:
        for p in pdf.pages:
            t = p.extract_text(x_tolerance=2.5, y_tolerance=4.0) or ""
            pages_text.append(t)
            rows: List[str] = []
            try:
                tables = p.extract_tables()
                for tbl in tables or []:
                    for row in tbl:
                        clean = [c if c is not None else "" for c in row]
                        rows.append("\t".join(clean).strip())
            except Exception:
                pass
            tables_lines.append(rows)
    total_chars = sum(len(x or "") for x in pages_text)
    if total_chars < 500:
        text_all = pdfminer_extract_text(
            str(pdf_path),
            laparams=LAParams(char_margin=2.0, word_margin=0.1, line_margin=0.8, boxes_flow=0.5),
        )
        pages_text = [x for x in text_all.split("\f") if x]
    return pages_text, tables_lines
 # ----------------- Helpers (with dictionaries) -----------------
 def _compile_user_regex(pattern: str, flags_list: List[str]):
    flags = 0
    for f in flags_list or []:
        if f.upper() == "IGNORECASE":
            flags |= re.IGNORECASE
        if f.upper() == "MULTILINE":
            flags |= re.MULTILINE
        if f.upper() == "DOTALL":
            flags |= re.DOTALL
    return re.compile(pattern, flags)
 def _apply_overrides(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    for ov in cfg.get("regex_overrides", []) or []:
        pattern = ov.get("pattern"); placeholder = ov.get("placeholder", PLACEHOLDERS["MASK"]) ; name = ov.get("name", "override")
        flags_list = ov.get("flags", [])
        try:
            rx = _compile_user_regex(pattern, flags_list)
        except Exception:
            continue
        def _rep(m: re.Match):
            audit.append(PiiHit(page_idx, name, m.group(0), placeholder))
            return placeholder
        line = rx.sub(_rep, line)
    # force-mask literals
    for term in (cfg.get("blacklist", {}).get("force_mask_terms", []) or []):
        if not term:
            continue
        word_rx = re.compile(rf"\b{re.escape(term)}\b", re.IGNORECASE)
        if word_rx.search(line):
            audit.append(PiiHit(page_idx, "force_term", term, PLACEHOLDERS["MASK"]))
            line = word_rx.sub(PLACEHOLDERS["MASK"], line)
    # force-mask regex
    for pat in (cfg.get("blacklist", {}).get("force_mask_regex", []) or []):
        try:
            rx = re.compile(pat, re.IGNORECASE)
        except Exception:
            continue
        if rx.search(line):
            audit.append(PiiHit(page_idx, "force_regex", pat, PLACEHOLDERS["MASK"]))
            line = rx.sub(PLACEHOLDERS["MASK"], line)
    return line
 def _mask_admin_label(line: str, audit: List[PiiHit], page_idx: int) -> str:
    m = RE_FINESS.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "FINESS", val, PLACEHOLDERS["FINESS"]))
        return RE_FINESS.sub(lambda _: f"FINESS : {PLACEHOLDERS['FINESS']}", line)
    m = RE_OGC.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "OGC", val, PLACEHOLDERS["OGC"]))
        return RE_OGC.sub(lambda _: f"N° OGC : {PLACEHOLDERS['OGC']}", line)
    m = RE_IPP.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "IPP", val, PLACEHOLDERS["IPP"]))
        return RE_IPP.sub(lambda _: f"IPP : {PLACEHOLDERS['IPP']}", line)
    return line
 def _mask_line_by_regex(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    # Apply user overrides & force-masks first
    line = _apply_overrides(line, audit, page_idx, cfg)
    # EMAIL
    def _repl_email(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "EMAIL", m.group(0), PLACEHOLDERS["EMAIL"]))
        return PLACEHOLDERS["EMAIL"]
    line = RE_EMAIL.sub(_repl_email, line)
    # TEL
    def _repl_tel(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "TEL", m.group(0), PLACEHOLDERS["TEL"]))
        return PLACEHOLDERS["TEL"]
    line = RE_TEL.sub(_repl_tel, line)
    # IBAN
    def _repl_iban(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "IBAN", m.group(0), PLACEHOLDERS["IBAN"]))
        return PLACEHOLDERS["IBAN"]
    line = RE_IBAN.sub(_repl_iban, line)
    # NIR
    def _repl_nir(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "NIR", m.group(0), PLACEHOLDERS["NIR"]))
        return PLACEHOLDERS["NIR"]
    line = RE_NIR.sub(_repl_nir, line)
    # PERSON uppercase with context, but with whitelist/short-token guards
    wl_sections = set((cfg.get("whitelist", {}) or {}).get("sections_titres", []) or [])
    wl_phrases = set((cfg.get("whitelist", {}) or {}).get("noms_maj_excepts", []) or [])
    def _repl_person_ctx(m: re.Match) -> str:
        span = m.group(1).strip()
        raw = m.group(0)
        if span in wl_sections or raw in wl_phrases:
            return raw
        tokens = [t for t in span.split() if t]
        if len(tokens) == 1 and len(tokens[0]) <= 3:
            return raw  # acronym short (DIM/DR/DP...)
        # Otherwise mask
        audit.append(PiiHit(page_idx, "NOM", span, PLACEHOLDERS["NOM"]))
        return raw.replace(span, PLACEHOLDERS["NOM"])  # keep prefix (Dr/Mme/etc.)
    line = RE_PERSON_CONTEXT.sub(_repl_person_ctx, line)
    return line
 def _kv_value_only_mask(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    line = _mask_admin_label(line, audit, page_idx)
    parts = SPLITTER.split(line, maxsplit=1)
    if len(parts) == 2:
        key, value = parts
        masked_val = _mask_line_by_regex(value, audit, page_idx, cfg)
        return f"{key.strip()} : {masked_val.strip()}"
    else:
        return _mask_line_by_regex(line, audit, page_idx, cfg)
 # ----------------- Anonymisation -----------------
 def anonymise_document(pages_text: List[str], tables_lines: List[List[str]], cfg: Dict[str, Any]) -> AnonResult:
    audit: List[PiiHit] = []
    out_pages: List[str] = []
    for i, page_txt in enumerate(pages_text):
        lines = [ln for ln in (page_txt or "").splitlines()]
        masked = [_kv_value_only_mask(ln, audit, i, cfg) for ln in lines]
        out_pages.append("\n".join(masked))
    table_blocks: List[str] = []
    for i, rows in enumerate(tables_lines):
        mbuf: List[str] = []
        for r in rows:
            masked = _kv_value_only_mask(r, audit, i, cfg)
            mbuf.append(masked)
        if mbuf:
            table_blocks.append("\n".join(mbuf))
    tables_block = "\n\n".join(table_blocks)
    text_out = "\n\n".join(out_pages)
    if tables_block.strip():
        text_out += "\n\n[TABLES]\n" + tables_block + "\n[/TABLES]"
    return AnonResult(text_out=text_out, tables_block=tables_block, audit=audit)
 # ----------------- Selective safety rescan -----------------
 def selective_rescan(text: str) -> str:
    # remove TABLES from scope
    def strip_tables(s: str):
        kept = []
        out = []
        i = 0
        pattern = re.compile(r"\[TABLES\](.*?)\[/TABLES\]", re.DOTALL)
        for m in pattern.finditer(s):
            out.append(s[i:m.start()])
            kept.append((len("".join(out)), len("".join(out)) + len(m.group(1)), m.group(1)))
            out.append("\x00" * (m.end() - m.start()))
            i = m.end()
        out.append(s[i:])
        return "".join(out), kept
    protected, kept = strip_tables(text)
    protected = RE_EMAIL.sub(PLACEHOLDERS["EMAIL"], protected)
    protected = RE_TEL.sub(PLACEHOLDERS["TEL"], protected)
    protected = RE_IBAN.sub(PLACEHOLDERS["IBAN"], protected)
    protected = RE_NIR.sub(PLACEHOLDERS["NIR"], protected)
    res = list(protected)
    for start, end, payload in kept:
        res[start:end] = list(payload)
    return "".join(res)
 # ----------------- PDF Redaction -----------------
 def redact_pdf_vector(original_pdf: Path, audit: List[PiiHit], out_pdf: Path) -> None:
    if fitz is None:
        raise RuntimeError("PyMuPDF not disponible – installez pymupdf.")
    doc = fitz.open(str(original_pdf))
    by_page: Dict[int, List[PiiHit]] = {}
    for h in audit:
        by_page.setdefault(h.page, []).append(h)
    for pno, hits in by_page.items():
        if pno >= len(doc):
            continue
        page = doc[pno]
        for h in hits:
            token = h.original.strip()
            if not token:
                continue
            rects = page.search_for(token)
            if not rects and h.kind in {"NIR", "IBAN", "TEL"}:
                compact = re.sub(r"\s+", "", token)
                if compact != token:
                    rects = page.search_for(compact)
            for r in rects:
                page.add_redact_annot(r, fill=(0,0,0))
        try:
            page.apply_redactions()
        except Exception:
            pass
    doc.save(str(out_pdf), deflate=True, garbage=4, clean=True, incremental=False)
    doc.close()
 def redact_pdf_raster(original_pdf: Path, audit: List[PiiHit], out_pdf: Path, dpi: int = 300) -> None:
    if fitz is None:
        raise RuntimeError("PyMuPDF not disponible – installez pymupdf.")
    doc = fitz.open(str(original_pdf))
    out = fitz.open()
    # search rects per page
    all_rects: Dict[int, List["fitz.Rect"]] = {}
    for pno in range(len(doc)):
        page = doc[pno]
        rects = []
        for h in [x for x in audit if x.page == pno]:
            token = h.original.strip()
            if not token:
                continue
            found = page.search_for(token)
            if not found and h.kind in {"NIR", "IBAN", "TEL"}:
                compact = re.sub(r"\s+", "", token)
                found = page.search_for(compact)
            rects.extend(found)
        all_rects[pno] = rects
    # render + compose
    for pno in range(len(doc)):
        src_page = doc[pno]
        page_rect = src_page.rect
        zoom = dpi / 72.0
        mat = fitz.Matrix(zoom, zoom)
        pix = src_page.get_pixmap(matrix=mat, annots=False)
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        draw = ImageDraw.Draw(img)
        for r in all_rects.get(pno, []):
            draw.rectangle([r.x0 * zoom, r.y0 * zoom, r.x1 * zoom, r.y1 * zoom], fill=(0, 0, 0))
        buf = io.BytesIO(); img.save(buf, format="PNG"); buf.seek(0)
        dst_page = out.new_page(width=page_rect.width, height=page_rect.height)
        dst_page.insert_image(page_rect, stream=buf.getvalue())
    out.save(str(out_pdf), deflate=True, garbage=4, clean=True)
    out.close(); doc.close()
 # ----------------- Orchestration -----------------
 def process_pdf(pdf_path: Path, out_dir: Path, make_vector_redaction: bool = True, also_make_raster_burn: bool = False, config_path: Optional[Path] = None) -> Dict[str, str]:
    out_dir.mkdir(parents=True, exist_ok=True)
    cfg = load_dictionaries(config_path)
    pages_text, tables_lines = extract_text_two_passes(pdf_path)
    anon = anonymise_document(pages_text, tables_lines, cfg)
    final_text = selective_rescan(anon.text_out)
    base = pdf_path.stem
    txt_path = out_dir / f"{base}.pseudonymise.txt"
    audit_path = out_dir / f"{base}.audit.jsonl"
    txt_path.write_text(final_text, encoding="utf-8")
    with audit_path.open("w", encoding="utf-8") as f:
        for hit in anon.audit:
            f.write(json.dumps(hit.__dict__, ensure_ascii=False) + "\n")
    outputs = {"text": str(txt_path), "audit": str(audit_path)}
    if make_vector_redaction and fitz is not None:
        vec_path = out_dir / f"{base}.redacted_vector.pdf"
        try:
            redact_pdf_vector(pdf_path, anon.audit, vec_path)
            outputs["pdf_vector"] = str(vec_path)
        except Exception:
            pass
    if also_make_raster_burn and fitz is not None:
        ras_path = out_dir / f"{base}.redacted_raster.pdf"
        redact_pdf_raster(pdf_path, anon.audit, ras_path)
        outputs["pdf_raster"] = str(ras_path)
    return outputs
 if __name__ == "__main__":
    import argparse
    ap = argparse.ArgumentParser(description="Anonymiser PDF avec dictionnaires YAML + PDF redactions")
    ap.add_argument("pdf", type=str)
    ap.add_argument("--out", type=str, default="out")
    ap.add_argument("--no-vector", action="store_true")
    ap.add_argument("--raster", action="store_true")
    ap.add_argument("--config", type=str, default=str(Path("config/dictionnaires.yml")))
    args = ap.parse_args()
    outs = process_pdf(Path(args.pdf), Path(args.out), make_vector_redaction=not args.no_vector, also_make_raster_burn=args.raster, config_path=Path(args.config))
    print(json.dumps(outs, indent=2, ensure_ascii=False))
--- a/anonymizer_core_refactored_onnx.py
+++ b/anonymizer_core_refactored_onnx.py
@@ -0,0 +1,874 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 Core d'anonymisation (v2.1) + NER ONNX (optionnel, narratif uniquement)
 ------------------------------------------------------------------------
 - Extraction 2 passes (pdfplumber -> pdfminer) + fallback 3e passe PyMuPDF si texte pauvre ou (cid:xx)
 - Règles regex (PII critiques) + clé:valeur (masquer valeur seulement) + overrides YAML
 - Rescan sécurité **sélectif** (EMAIL/TEL/IBAN/NIR), jamais dans [TABLES]
 - Redaction PDF (vector/raster) via PyMuPDF
 - NER ONNX **optionnel** (CamemBERT family) appliqué **après** les règles, sur le narratif
 Dépendances : pdfplumber, pdfminer.six, pillow, pymupdf, pyyaml (optionnel), transformers, optimum, onnxruntime
 """
 from __future__ import annotations
 import io
 import json
 import re
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import List, Dict, Tuple, Optional, Any
 import pdfplumber
 from pdfminer.high_level import extract_text as pdfminer_extract_text
 from pdfminer.layout import LAParams
 from PIL import Image, ImageDraw
 try:
    import fitz  # PyMuPDF
 except Exception:
    fitz = None
 try:
    import yaml  # PyYAML for dictionaries
 except Exception:
    yaml = None
 try:
    from doctr.models import ocr_predictor as _doctr_ocr_predictor
    _DOCTR_AVAILABLE = True
 except Exception:
    _doctr_ocr_predictor = None  # type: ignore
    _DOCTR_AVAILABLE = False
 # NER manager (facultatif)
 try:
    from ner_manager_onnx import NerModelManager, NerThresholds
 except Exception:
    NerModelManager = None  # type: ignore
    NerThresholds = None  # type: ignore
 # EDS-Pseudo manager (facultatif)
 try:
    from eds_pseudo_manager import EdsPseudoManager
 except Exception:
    EdsPseudoManager = None  # type: ignore
 # ----------------- Defaults & Config -----------------
 DEFAULTS_CFG = {
    "version": 1,
    "encoding": "utf-8",
    "normalization": "NFKC",
    "whitelist": {
        "sections_titres": ["DIM", "GHM", "GHS", "RUM", "COMPTE", "RENDU", "DIAGNOSTIC"],
        "noms_maj_excepts": ["Médecin DIM", "Praticien conseil"],
        "org_gpe_keep": True,
    },
    "blacklist": {
        "force_mask_terms": [],
        "force_mask_regex": [],
    },
    "kv_labels_preserve": ["FINESS", "IPP", "N° OGC", "Etablissement"],
    "regex_overrides": [
        {
            "name": "OGC_court",
            "pattern": r"\b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b",
            "placeholder": "[OGC]",
            "flags": ["IGNORECASE"],
        }
    ],
    "flags": {
        "case_insensitive": True,
        "unicode_word_boundaries": True,
        "regex_engine": "python",
    },
 }
 PLACEHOLDERS = {
    "EMAIL": "[EMAIL]",
    "TEL": "[TEL]",
    "IBAN": "[IBAN]",
    "NIR": "[NIR]",
    "IPP": "[IPP]",
    "FINESS": "[FINESS]",
    "OGC": "[OGC]",
    "NOM": "[NOM]",
    "VILLE": "[VILLE]",
    "ETAB": "[ETABLISSEMENT]",
    "MASK": "[MASK]",
    "DATE": "[DATE]",
    "DATE_NAISSANCE": "[DATE_NAISSANCE]",
    "ADRESSE": "[ADRESSE]",
    "CODE_POSTAL": "[CODE_POSTAL]",
    "AGE": "[AGE]",
    "DOSSIER": "[DOSSIER]",
    "NDA": "[NDA]",
 }
 CRITICAL_PII_KEYS = {"EMAIL", "TEL", "IBAN", "NIR", "IPP", "DATE_NAISSANCE"}
 # Baseline regex
 RE_EMAIL = re.compile(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}")
 RE_TEL = re.compile(r"(?<!\d)(?:\+33\s?|0)\d(?:[ .-]?\d){8}(?!\d)")
 RE_IBAN = re.compile(r"\b[A-Z]{2}\d{2}[A-Z0-9]{11,30}\b")
 RE_IPP = re.compile(r"\bIPP\s*[:\-]?\s*([A-Za-z0-9]{6,})\b", re.IGNORECASE)
 RE_FINESS = re.compile(r"\bFINESS\s*[:\-]?\s*(\d{9})\b", re.IGNORECASE)
 RE_OGC = re.compile(r"\b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,})\b", re.IGNORECASE)
 RE_NIR = re.compile(
    r"\b([12])\s*(\d{2})\s*(0[1-9]|1[0-2]|2[AB])\s*(\d{2,3})\s*(\d{3})\s*(\d{3})\s*(\d{2})\b",
    re.IGNORECASE,
 )
 def validate_nir(nir_raw: str) -> bool:
    """Vérifie la clé modulo 97 d'un NIR (13 chiffres + 2 clé). Supporte la Corse (2A/2B)."""
    digits_only = re.sub(r"\s+", "", nir_raw)
    if len(digits_only) < 15:
        return False
    body_str = digits_only[:13]
    key_str = digits_only[13:15]
    # Corse : 2A → 19, 2B → 18 (pour le calcul)
    body_str_calc = body_str.upper().replace("2A", "19").replace("2B", "18")
    try:
        body_int = int(body_str_calc)
        key_int = int(key_str)
    except ValueError:
        return False
    return key_int == (97 - (body_int % 97))
 RE_PERSON_CONTEXT = re.compile(
    r"(?:(?:Dr\.?|DR\.?|Docteur|Mme|MME|Madame|M\.|Mr\.?|Monsieur"
    r"|Nom\s*:\s*|Praticien|Médecin"
    r"|Rédigé\s+par|Validé\s+par|Signé\s+par|Saisi\s+par"
    r")\s+)"
    r"([A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-\' .]+(?:\s+[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-\'.]+)*)"
 )
 SPLITTER = re.compile(r"\s*[:|;\t]\s*")
 # --- Extraction globale de noms depuis champs structurés ---
 _UC_NAME_TOKEN = r"[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-\']+"
 RE_EXTRACT_PATIENT = re.compile(
    r"Patient\(?e?\)?\s*:\s*"
    rf"((?:{_UC_NAME_TOKEN})(?:\s+(?:{_UC_NAME_TOKEN}))*)"
    r"(?=\s+Né|\s+né|\s+N°|\s*$)",
    re.MULTILINE,
 )
 RE_EXTRACT_REDIGE = re.compile(
    r"(?:Rédigé|Validé|Signé|Saisi)\s+par\s+"
    rf"((?:{_UC_NAME_TOKEN})(?:\s+(?:{_UC_NAME_TOKEN}))*)",
 )
 RE_EXTRACT_MME_MR = re.compile(
    r"(?:MME|Madame|Monsieur|Mr\.?)\s+"
    r"((?:[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ]{2,})(?:\s+[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ]{2,})*)",
 )
 RE_EXTRACT_DR_DEST = re.compile(
    r"(?:DR\.?|Docteur)\s+"
    rf"((?:{_UC_NAME_TOKEN})(?:\s+(?:{_UC_NAME_TOKEN}))*)",
 )
 CID_PATTERN = re.compile(r"\(cid:\d+\)")
 # --- Nouvelles regex : dates, adresses, âges, dossiers ---
 _MOIS_FR = r"(?:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre)"
 RE_DATE_NAISSANCE = re.compile(
    r"(?:n[ée]+\s+le|date\s+de\s+naissance|DDN)\s*[:\-]?\s*"
    r"(\d{1,2}[\s/.\-]\d{1,2}[\s/.\-]\d{2,4}|\d{1,2}\s+" + _MOIS_FR + r"\s+\d{4})",
    re.IGNORECASE,
 )
 RE_DATE = re.compile(
    r"\b(\d{1,2})\s*[/.\-]\s*(\d{1,2})\s*[/.\-]\s*(\d{4})\b"
    r"|"
    r"\b(\d{1,2})\s+" + _MOIS_FR + r"\s+(\d{4})\b",
    re.IGNORECASE,
 )
 RE_ADRESSE = re.compile(
    r"\b\d{1,4}[\s,]*(?:bis|ter)?\s*,?\s*"
    r"(?:rue|avenue|av\.|boulevard|bd|place|chemin|allée|impasse|route|cours|passage|square)"
    r"\s+[A-ZÉÈÀÙÂÊÎÔÛa-zéèàùâêîôûäëïöüç\s\-']{2,}",
    re.IGNORECASE,
 )
 RE_CODE_POSTAL = re.compile(
    r"(?:(?:code\s*postal|CP)\s*[:\-]?\s*(\d{5}))"
    r"|"
    r"(?:(\d{5})[ \t]+[A-ZÉÈÀÙ][a-zéèàùâêîôû]+(?:[\s\-][A-ZÉÈÀÙ][a-zéèàùâêîôû]+)*)",
    re.IGNORECASE,
 )
 RE_AGE = re.compile(
    r"(?:âg[ée]+\s+de\s+|patient(?:e)?\s+de\s+)?(\d{1,3})\s*ans\b",
    re.IGNORECASE,
 )
 RE_NUMERO_DOSSIER = re.compile(
    r"(?:dossier|n°\s*dossier|NDA)\s*[:\-n°]+\s*([A-Za-z0-9\-/]{4,})"
    r"|"
    r"(?:référence|réf\.)\s*[:\-n°]+\s*([A-Za-z0-9\-/]{4,})",
    re.IGNORECASE,
 )
@dataclass
 class PiiHit:
    page: int
    kind: str
    original: str
    placeholder: str
    bbox_hint: Optional[Tuple[float, float, float, float]] = None
@dataclass
 class AnonResult:
    text_out: str
    tables_block: str
    audit: List[PiiHit] = field(default_factory=list)
 # ----------------- Config loader -----------------
 def load_dictionaries(config_path: Optional[Path]) -> Dict[str, Any]:
    cfg = DEFAULTS_CFG.copy()
    if config_path and config_path.exists() and yaml is not None:
        try:
            user = yaml.safe_load(config_path.read_text(encoding="utf-8")) or {}
            for k, v in user.items():
                cfg[k] = v
        except Exception:
            pass
    return cfg
 # ----------------- Extraction -----------------
 def extract_text_with_fallback_ocr(pdf_path: Path) -> Tuple[List[str], List[List[str]], bool]:
    """Extraction texte multi-passes avec fallback OCR (docTR).
    Retourne (pages_text, tables_lines, ocr_used).
    """
    pages_text: List[str] = []
    tables_lines: List[List[str]] = []
    ocr_used = False
    with pdfplumber.open(pdf_path) as pdf:
        for p in pdf.pages:
            t = p.extract_text(x_tolerance=2.5, y_tolerance=4.0) or ""
            pages_text.append(t)
            rows: List[str] = []
            try:
                tables = p.extract_tables()
                for tbl in tables or []:
                    for row in tbl:
                        clean = [c if c is not None else "" for c in row]
                        rows.append("\t".join(clean).strip())
            except Exception:
                pass
            tables_lines.append(rows)
    total_chars = sum(len(x or "") for x in pages_text)
    need_fallback = total_chars < 500
    if not need_fallback:
        need_fallback = any(CID_PATTERN.search(x or "") for x in pages_text)
    if need_fallback:
        text_all = pdfminer_extract_text(
            str(pdf_path),
            laparams=LAParams(char_margin=2.0, word_margin=0.1, line_margin=0.8, boxes_flow=0.5),
        )
        split = [x for x in text_all.split("\f") if x]
        if split:
            pages_text = split
    # 3e passe PyMuPDF si toujours pauvre/cid
    total_chars = sum(len(x or "") for x in pages_text)
    if (total_chars < 500 or any(CID_PATTERN.search(x or "") for x in pages_text)) and fitz is not None:
        try:
            doc = fitz.open(str(pdf_path))
            pages_text = [doc[i].get_text("text") or "" for i in range(len(doc))]
            doc.close()
        except Exception:
            pass
    # 4e passe : OCR docTR si toujours très peu de texte (PDF scanné)
    total_chars = sum(len(x or "") for x in pages_text)
    if total_chars < 200 and _DOCTR_AVAILABLE and fitz is not None:
        try:
            model = _doctr_ocr_predictor(det_arch="db_resnet50", reco_arch="crnn_vgg16_bn", pretrained=True)
            doc = fitz.open(str(pdf_path))
            ocr_pages: List[str] = []
            for i in range(len(doc)):
                pix = doc[i].get_pixmap(dpi=300)
                img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
                import numpy as np
                result = model([np.array(img)])
                page_text = ""
                for block in result.pages[0].blocks:
                    for line in block.lines:
                        words = [w.value for w in line.words]
                        page_text += " ".join(words) + "\n"
                ocr_pages.append(page_text)
            doc.close()
            if sum(len(p) for p in ocr_pages) > total_chars:
                pages_text = ocr_pages
                ocr_used = True
        except Exception:
            pass
    return pages_text, tables_lines, ocr_used
 # Alias pour compatibilité ascendante
 def extract_text_three_passes(pdf_path: Path):
    pages_text, tables_lines, _ = extract_text_with_fallback_ocr(pdf_path)
    return pages_text, tables_lines
 # ----------------- Helpers -----------------
 def _compile_user_regex(pattern: str, flags_list: List[str]):
    flags = 0
    for f in flags_list or []:
        u = f.upper()
        if u == "IGNORECASE": flags |= re.IGNORECASE
        if u == "MULTILINE": flags |= re.MULTILINE
        if u == "DOTALL": flags |= re.DOTALL
    return re.compile(pattern, flags)
 def _apply_overrides(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    for ov in cfg.get("regex_overrides", []) or []:
        pattern = ov.get("pattern"); placeholder = ov.get("placeholder", PLACEHOLDERS["MASK"]) ; name = ov.get("name", "override")
        flags_list = ov.get("flags", [])
        try:
            rx = _compile_user_regex(pattern, flags_list)
        except Exception:
            continue
        def _rep(m: re.Match):
            audit.append(PiiHit(page_idx, name, m.group(0), placeholder))
            return placeholder
        line = rx.sub(_rep, line)
    # force-mask literals
    for term in (cfg.get("blacklist", {}).get("force_mask_terms", []) or []):
        if not term: continue
        word_rx = re.compile(rf"\b{re.escape(term)}\b", re.IGNORECASE)
        if word_rx.search(line):
            audit.append(PiiHit(page_idx, "force_term", term, PLACEHOLDERS["MASK"]))
            line = word_rx.sub(PLACEHOLDERS["MASK"], line)
    # force-mask regex
    for pat in (cfg.get("blacklist", {}).get("force_mask_regex", []) or []):
        try:
            rx = re.compile(pat, re.IGNORECASE)
        except Exception:
            continue
        if rx.search(line):
            audit.append(PiiHit(page_idx, "force_regex", pat, PLACEHOLDERS["MASK"]))
            line = rx.sub(PLACEHOLDERS["MASK"], line)
    return line
 def _mask_admin_label(line: str, audit: List[PiiHit], page_idx: int) -> str:
    m = RE_FINESS.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "FINESS", val, PLACEHOLDERS["FINESS"]))
        return RE_FINESS.sub(lambda _: f"FINESS : {PLACEHOLDERS['FINESS']}", line)
    m = RE_OGC.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "OGC", val, PLACEHOLDERS["OGC"]))
        return RE_OGC.sub(lambda _: f"N° OGC : {PLACEHOLDERS['OGC']}", line)
    m = RE_IPP.search(line)
    if m:
        val = m.group(1); audit.append(PiiHit(page_idx, "IPP", val, PLACEHOLDERS["IPP"]))
        return RE_IPP.sub(lambda _: f"IPP : {PLACEHOLDERS['IPP']}", line)
    return line
 def _mask_line_by_regex(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    # user overrides & force-masks d'abord
    line = _apply_overrides(line, audit, page_idx, cfg)
    # EMAIL
    def _repl_email(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "EMAIL", m.group(0), PLACEHOLDERS["EMAIL"]))
        return PLACEHOLDERS["EMAIL"]
    line = RE_EMAIL.sub(_repl_email, line)
    # TEL
    def _repl_tel(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "TEL", m.group(0), PLACEHOLDERS["TEL"]))
        return PLACEHOLDERS["TEL"]
    line = RE_TEL.sub(_repl_tel, line)
    # IBAN
    def _repl_iban(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "IBAN", m.group(0), PLACEHOLDERS["IBAN"]))
        return PLACEHOLDERS["IBAN"]
    line = RE_IBAN.sub(_repl_iban, line)
    # NIR (avec validation clé modulo 97)
    def _repl_nir(m: re.Match) -> str:
        raw = m.group(0)
        if not validate_nir(raw):
            return raw  # faux positif, on ne masque pas
        audit.append(PiiHit(page_idx, "NIR", raw, PLACEHOLDERS["NIR"]))
        return PLACEHOLDERS["NIR"]
    line = RE_NIR.sub(_repl_nir, line)
    # DATE_NAISSANCE (plus spécifique, avant DATE générique)
    def _repl_date_naissance(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "DATE_NAISSANCE", m.group(0), PLACEHOLDERS["DATE_NAISSANCE"]))
        return PLACEHOLDERS["DATE_NAISSANCE"]
    line = RE_DATE_NAISSANCE.sub(_repl_date_naissance, line)
    # DATE générique
    def _repl_date(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "DATE", m.group(0), PLACEHOLDERS["DATE"]))
        return PLACEHOLDERS["DATE"]
    line = RE_DATE.sub(_repl_date, line)
    # ADRESSE
    def _repl_adresse(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "ADRESSE", m.group(0), PLACEHOLDERS["ADRESSE"]))
        return PLACEHOLDERS["ADRESSE"]
    line = RE_ADRESSE.sub(_repl_adresse, line)
    # CODE_POSTAL
    def _repl_code_postal(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "CODE_POSTAL", m.group(0), PLACEHOLDERS["CODE_POSTAL"]))
        return PLACEHOLDERS["CODE_POSTAL"]
    line = RE_CODE_POSTAL.sub(_repl_code_postal, line)
    # AGE
    def _repl_age(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "AGE", m.group(0), PLACEHOLDERS["AGE"]))
        return PLACEHOLDERS["AGE"]
    line = RE_AGE.sub(_repl_age, line)
    # NUMERO DOSSIER / NDA
    def _repl_dossier(m: re.Match) -> str:
        audit.append(PiiHit(page_idx, "DOSSIER", m.group(0), PLACEHOLDERS["DOSSIER"]))
        return PLACEHOLDERS["DOSSIER"]
    line = RE_NUMERO_DOSSIER.sub(_repl_dossier, line)
    # PERSON uppercase avec contexte, whitelist/acronymes courts
    wl_sections = set((cfg.get("whitelist", {}) or {}).get("sections_titres", []) or [])
    wl_phrases = set((cfg.get("whitelist", {}) or {}).get("noms_maj_excepts", []) or [])
    def _repl_person_ctx(m: re.Match) -> str:
        span = m.group(1).strip(); raw = m.group(0)
        if span in wl_sections or raw in wl_phrases: return raw
        tokens = [t for t in span.split() if t]
        if len(tokens) == 1 and len(tokens[0]) <= 3: return raw
        audit.append(PiiHit(page_idx, "NOM", span, PLACEHOLDERS["NOM"]))
        return raw.replace(span, PLACEHOLDERS["NOM"])  # conserve le préfixe Dr/Mme
    line = RE_PERSON_CONTEXT.sub(_repl_person_ctx, line)
    return line
 def _kv_value_only_mask(line: str, audit: List[PiiHit], page_idx: int, cfg: Dict[str, Any]) -> str:
    line = _mask_admin_label(line, audit, page_idx)
    parts = SPLITTER.split(line, maxsplit=1)
    if len(parts) == 2:
        key, value = parts
        masked_val = _mask_line_by_regex(value, audit, page_idx, cfg)
        return f"{key.strip()} : {masked_val.strip()}"
    else:
        return _mask_line_by_regex(line, audit, page_idx, cfg)
 # ----------------- Extraction globale de noms -----------------
 def _extract_document_names(full_text: str, cfg: Dict[str, Any]) -> set:
    """Pré-scan du document brut pour extraire les noms de personnes
    depuis les champs structurés (Patient, Rédigé par, etc.).
    Retourne un ensemble de tokens (mots) à masquer globalement."""
    wl_sections = set((cfg.get("whitelist", {}) or {}).get("sections_titres", []) or [])
    wl_phrases = set((cfg.get("whitelist", {}) or {}).get("noms_maj_excepts", []) or [])
    names: set = set()
    def _add_tokens(match_str: str):
        for token in match_str.split():
            token = token.strip(" .-'")
            if len(token) >= 3 and token.upper() not in wl_sections and token not in wl_phrases:
                names.add(token)
    for m in RE_EXTRACT_PATIENT.finditer(full_text):
        _add_tokens(m.group(1))
    for m in RE_EXTRACT_REDIGE.finditer(full_text):
        _add_tokens(m.group(1))
    for m in RE_EXTRACT_MME_MR.finditer(full_text):
        _add_tokens(m.group(1))
    for m in RE_EXTRACT_DR_DEST.finditer(full_text):
        _add_tokens(m.group(1))
    return names
 def _apply_extracted_names(text: str, names: set, audit: List[PiiHit]) -> str:
    """Remplace globalement chaque nom extrait dans le texte."""
    placeholder = PLACEHOLDERS["NOM"]
    for token in sorted(names, key=len, reverse=True):
        pattern = re.compile(rf"\b{re.escape(token)}\b", re.IGNORECASE)
        for m in pattern.finditer(text):
            # Ne pas remplacer si déjà dans un placeholder
            ctx_start = max(0, m.start() - 1)
            ctx_end = min(len(text), m.end() + 1)
            if "[" in text[ctx_start:m.start()] or "]" in text[m.end():ctx_end]:
                continue
            audit.append(PiiHit(-1, "NOM_EXTRACTED", m.group(0), placeholder))
        text = pattern.sub(placeholder, text)
    return text
 # ----------------- Anonymisation (regex) -----------------
 def anonymise_document_regex(pages_text: List[str], tables_lines: List[List[str]], cfg: Dict[str, Any]) -> AnonResult:
    audit: List[PiiHit] = []
    # Phase 0 : extraction globale des noms depuis les champs structurés
    full_raw = "\n".join(pages_text) + "\n" + "\n".join(
        "\n".join(rows) for rows in tables_lines
    )
    extracted_names = _extract_document_names(full_raw, cfg)
    # Phase 1 : masquage ligne par ligne (regex classiques)
    out_pages: List[str] = []
    for i, page_txt in enumerate(pages_text):
        lines = [ln for ln in (page_txt or "").splitlines()]
        masked = [_kv_value_only_mask(ln, audit, i, cfg) for ln in lines]
        out_pages.append("\n".join(masked))
    table_blocks: List[str] = []
    for i, rows in enumerate(tables_lines):
        mbuf: List[str] = []
        for r in rows:
            masked = _kv_value_only_mask(r, audit, i, cfg)
            mbuf.append(masked)
        if mbuf:
            table_blocks.append("\n".join(mbuf))
    tables_block = "\n\n".join(table_blocks)
    text_out = "\f".join(out_pages)  # séparateur de pages
    if tables_block.strip():
        text_out += "\n\n[TABLES]\n" + tables_block + "\n[/TABLES]"
    # Phase 2 : application globale des noms extraits (rattrapage)
    if extracted_names:
        text_out = _apply_extracted_names(text_out, extracted_names, audit)
    return AnonResult(text_out=text_out, tables_block=tables_block, audit=audit)
 # ----------------- NER ONNX sur narratif -----------------
 def _mask_with_hf(text: str, ents: List[Dict[str, Any]], cfg: Dict[str, Any], audit: List[PiiHit]) -> str:
    # remplace via regex sur les 'word' détectés (approche pragmatique)
    keep_org_gpe = bool((cfg.get("whitelist", {}) or {}).get("org_gpe_keep", True))
    def repl_once(s: str, old: str, new: str) -> str:
        return re.sub(rf"\b{re.escape(old)}\b", new, s)
    out = text
    for e in ents:
        w = e.get("word") or ""; grp = (e.get("entity_group") or e.get("entity") or "").upper()
        if not w or "[" in w or "]" in w:  # ignore placeholders
            continue
        if len(w) <= 2:  # trop court
            continue
        if grp in {"PER", "PERSON"}:
            audit.append(PiiHit(-1, "NER_PER", w, PLACEHOLDERS["NOM"]))
            out = repl_once(out, w, PLACEHOLDERS["NOM"])
        elif grp in {"ORG"}:
            if keep_org_gpe:
                continue
            audit.append(PiiHit(-1, "NER_ORG", w, PLACEHOLDERS["ETAB"]))
            out = repl_once(out, w, PLACEHOLDERS["ETAB"])
        elif grp in {"LOC"}:
            if keep_org_gpe:
                continue
            audit.append(PiiHit(-1, "NER_LOC", w, PLACEHOLDERS["VILLE"]))
            out = repl_once(out, w, PLACEHOLDERS["VILLE"])
        elif grp in {"DATE"}:
            # facultatif : si vous masquez déjà les dates via règles, laissez tel quel
            continue
    return out
 def apply_hf_ner_on_narrative(text_out: str, cfg: Dict[str, Any], manager: Optional[NerModelManager], thresholds: Optional[NerThresholds]) -> Tuple[str, List[PiiHit]]:
    if manager is None or not manager.is_loaded():
        return text_out, []
    # isoler [TABLES]
    pattern = re.compile(r"\[TABLES\](.*?)\[/TABLES\]", re.DOTALL)
    tables: List[Tuple[int,int,str]] = []
    keep = []
    last = 0
    cleaned = ""
    for m in pattern.finditer(text_out):
        cleaned += text_out[last:m.start()]
        keep.append((len(cleaned), len(cleaned) + len(m.group(0)), m.group(0)))
        cleaned += "\x00" * len(m.group(0))
        last = m.end()
    cleaned += text_out[last:]
    # par pages (séparées par \f) → par paragraphes
    pages = cleaned.split("\f")
    hits: List[PiiHit] = []
    rebuilt_pages: List[str] = []
    for pg in pages:
        paras = [p for p in re.split(r"\n\s*\n", pg) if p.strip()]
        ents_per_para = manager.infer_paragraphs(paras, thresholds=thresholds)
        # remplace entités
        idx = 0
        buf = []
        for para, ents in zip(paras, ents_per_para):
            masked = _mask_with_hf(para, ents, cfg, hits)
            buf.append(masked)
        rebuilt_pages.append("\n\n".join(buf))
    rebuilt = "\f".join(rebuilt_pages)
    # réinsérer [TABLES]
    rebuilt_list = list(rebuilt)
    for start, end, payload in keep:
        rebuilt_list[start:end] = list(payload)
    final = "".join(rebuilt_list)
    return final, hits
 # ----------------- NER EDS-Pseudo sur narratif -----------------
 def _mask_with_eds_pseudo(text: str, ents: List[Dict[str, Any]], cfg: Dict[str, Any], audit: List[PiiHit]) -> str:
    """Masque les entités détectées par EDS-Pseudo en utilisant le mapping eds_mapped_key."""
    def repl_once(s: str, old: str, new: str) -> str:
        return re.sub(rf"\b{re.escape(old)}\b", new, s)
    out = text
    for e in ents:
        w = e.get("word") or ""
        mapped_key = e.get("eds_mapped_key", "")
        if not w or "[" in w or "]" in w:
            continue
        if len(w) <= 2:
            continue
        placeholder = PLACEHOLDERS.get(mapped_key, PLACEHOLDERS["MASK"])
        label = e.get("entity_group", "EDS")
        audit.append(PiiHit(-1, f"EDS_{label}", w, placeholder))
        out = repl_once(out, w, placeholder)
    return out
 def apply_eds_pseudo_on_narrative(text_out: str, cfg: Dict[str, Any], manager: "EdsPseudoManager") -> Tuple[str, List[PiiHit]]:
    """Applique EDS-Pseudo sur le narratif (même structure que apply_hf_ner_on_narrative)."""
    if manager is None or not manager.is_loaded():
        return text_out, []
    # isoler [TABLES]
    pattern = re.compile(r"\[TABLES\](.*?)\[/TABLES\]", re.DOTALL)
    keep = []
    last = 0
    cleaned = ""
    for m in pattern.finditer(text_out):
        cleaned += text_out[last:m.start()]
        keep.append((len(cleaned), len(cleaned) + len(m.group(0)), m.group(0)))
        cleaned += "\x00" * len(m.group(0))
        last = m.end()
    cleaned += text_out[last:]
    # par pages → par paragraphes
    pages = cleaned.split("\f")
    hits: List[PiiHit] = []
    rebuilt_pages: List[str] = []
    for pg in pages:
        paras = [p for p in re.split(r"\n\s*\n", pg) if p.strip()]
        ents_per_para = manager.infer_paragraphs(paras)
        buf = []
        for para, ents in zip(paras, ents_per_para):
            masked = _mask_with_eds_pseudo(para, ents, cfg, hits)
            buf.append(masked)
        rebuilt_pages.append("\n\n".join(buf))
    rebuilt = "\f".join(rebuilt_pages)
    # réinsérer [TABLES]
    rebuilt_list = list(rebuilt)
    for start, end, payload in keep:
        rebuilt_list[start:end] = list(payload)
    final = "".join(rebuilt_list)
    return final, hits
 # ----------------- Selective safety rescan -----------------
 def selective_rescan(text: str, cfg: Dict[str, Any] | None = None) -> str:
    """Rescan de sécurité : re-détecte les PII critiques qui auraient échappé au premier passage."""
    # enlève TABLES du scope
    def strip_tables(s: str):
        kept = []
        out = []
        i = 0
        pattern = re.compile(r"\[TABLES\](.*?)\[/TABLES\]", re.DOTALL)
        for m in pattern.finditer(s):
            out.append(s[i:m.start()])
            kept.append((len("".join(out)), len("".join(out)) + len(m.group(1)), m.group(1)))
            out.append("\x00" * (m.end() - m.start()))
            i = m.end()
        out.append(s[i:])
        return "".join(out), kept
    protected, kept = strip_tables(text)
    # PII critiques (comme avant)
    protected = RE_EMAIL.sub(PLACEHOLDERS["EMAIL"], protected)
    protected = RE_TEL.sub(PLACEHOLDERS["TEL"], protected)
    protected = RE_IBAN.sub(PLACEHOLDERS["IBAN"], protected)
    # NIR avec validation
    def _rescan_nir(m: re.Match) -> str:
        return PLACEHOLDERS["NIR"] if validate_nir(m.group(0)) else m.group(0)
    protected = RE_NIR.sub(_rescan_nir, protected)
    # Nouvelles regex : dates de naissance, dates, adresses, codes postaux
    protected = RE_DATE_NAISSANCE.sub(PLACEHOLDERS["DATE_NAISSANCE"], protected)
    protected = RE_DATE.sub(PLACEHOLDERS["DATE"], protected)
    protected = RE_ADRESSE.sub(PLACEHOLDERS["ADRESSE"], protected)
    protected = RE_CODE_POSTAL.sub(PLACEHOLDERS["CODE_POSTAL"], protected)
    # Personnes contextuelles (avec whitelist)
    wl_sections = set()
    wl_phrases = set()
    if cfg:
        wl_sections = set((cfg.get("whitelist", {}) or {}).get("sections_titres", []) or [])
        wl_phrases = set((cfg.get("whitelist", {}) or {}).get("noms_maj_excepts", []) or [])
    def _rescan_person(m: re.Match) -> str:
        span = m.group(1).strip(); raw = m.group(0)
        if span in wl_sections or raw in wl_phrases:
            return raw
        tokens = [t for t in span.split() if t]
        if len(tokens) == 1 and len(tokens[0]) <= 3:
            return raw
        return raw.replace(span, PLACEHOLDERS["NOM"])
    protected = RE_PERSON_CONTEXT.sub(_rescan_person, protected)
    res = list(protected)
    for start, end, payload in kept:
        res[start:end] = list(payload)
    return "".join(res)
 # ----------------- PDF Redaction -----------------
 def redact_pdf_vector(original_pdf: Path, audit: List[PiiHit], out_pdf: Path) -> None:
    if fitz is None:
        raise RuntimeError("PyMuPDF non disponible – installez pymupdf.")
    doc = fitz.open(str(original_pdf))
    # index hits par page; page==-1 → rechercher sur toutes pages
    by_page: Dict[int, List[PiiHit]] = {}
    for h in audit:
        by_page.setdefault(h.page, []).append(h)
    for pno in range(len(doc)):
        page = doc[pno]
        hits = by_page.get(pno, []) + by_page.get(-1, [])
        if not hits:
            continue
        for h in hits:
            token = h.original.strip()
            if not token:
                continue
            rects = page.search_for(token)
            if not rects and h.kind in {"NIR", "IBAN", "TEL"}:
                compact = re.sub(r"\s+", "", token)
                if compact != token:
                    rects = page.search_for(compact)
            for r in rects:
                page.add_redact_annot(r, fill=(0,0,0))
        try:
            page.apply_redactions()
        except Exception:
            pass
    doc.save(str(out_pdf), deflate=True, garbage=4, clean=True, incremental=False)
    doc.close()
 def redact_pdf_raster(original_pdf: Path, audit: List[PiiHit], out_pdf: Path, dpi: int = 300) -> None:
    if fitz is None:
        raise RuntimeError("PyMuPDF non disponible – installez pymupdf.")
    doc = fitz.open(str(original_pdf)); out = fitz.open()
    all_rects: Dict[int, List["fitz.Rect"]] = {}
    for pno in range(len(doc)):
        page = doc[pno]
        rects = []
        hits = [x for x in audit if x.page in {pno, -1}]
        for h in hits:
            token = h.original.strip()
            if not token: continue
            found = page.search_for(token)
            if not found and h.kind in {"NIR", "IBAN", "TEL"}:
                compact = re.sub(r"\s+", "", token)
                found = page.search_for(compact)
            rects.extend(found)
        all_rects[pno] = rects
    for pno in range(len(doc)):
        src = doc[pno]; rect = src.rect
        zoom = dpi / 72.0; mat = fitz.Matrix(zoom, zoom)
        pix = src.get_pixmap(matrix=mat, annots=False)
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        draw = ImageDraw.Draw(img)
        for r in all_rects.get(pno, []):
            draw.rectangle([r.x0 * zoom, r.y0 * zoom, r.x1 * zoom, r.y1 * zoom], fill=(0, 0, 0))
        buf = io.BytesIO(); img.save(buf, format="PNG"); buf.seek(0)
        dst = out.new_page(width=rect.width, height=rect.height)
        dst.insert_image(rect, stream=buf.getvalue())
    out.save(str(out_pdf), deflate=True, garbage=4, clean=True)
    out.close(); doc.close()
 # ----------------- Orchestration -----------------
 def process_pdf(
    pdf_path: Path,
    out_dir: Path,
    make_vector_redaction: bool = True,
    also_make_raster_burn: bool = False,
    config_path: Optional[Path] = None,
    use_hf: bool = False,
    ner_manager=None,
    ner_thresholds=None,
 ) -> Dict[str, str]:
    out_dir.mkdir(parents=True, exist_ok=True)
    cfg = load_dictionaries(config_path)
    pages_text, tables_lines, ocr_used = extract_text_with_fallback_ocr(pdf_path)
    # 1) Regex rules
    anon = anonymise_document_regex(pages_text, tables_lines, cfg)
    # 2) NER (optionnel) — sur le narratif
    final_text = anon.text_out
    hf_hits: List[PiiHit] = []
    if use_hf and ner_manager is not None and ner_manager.is_loaded():
        # Détecter le type de manager et appeler la bonne fonction
        if EdsPseudoManager is not None and isinstance(ner_manager, EdsPseudoManager):
            final_text, hf_hits = apply_eds_pseudo_on_narrative(final_text, cfg, ner_manager)
        else:
            final_text, hf_hits = apply_hf_ner_on_narrative(final_text, cfg, ner_manager, ner_thresholds)
        anon.audit.extend(hf_hits)
    # 3) Rescan selectif
    final_text = selective_rescan(final_text, cfg=cfg)
    # Log OCR dans l'audit
    if ocr_used:
        anon.audit.insert(0, PiiHit(page=-1, kind="OCR_USED", original="docTR", placeholder=""))
    # Sauvegardes
    base = pdf_path.stem
    txt_path = out_dir / f"{base}.pseudonymise.txt"
    audit_path = out_dir / f"{base}.audit.jsonl"
    txt_path.write_text(final_text, encoding="utf-8")
    with audit_path.open("w", encoding="utf-8") as f:
        for hit in anon.audit:
            f.write(json.dumps(hit.__dict__, ensure_ascii=False) + "\n")
    outputs = {"text": str(txt_path), "audit": str(audit_path)}
    # PDFs
    if make_vector_redaction and fitz is not None:
        vec_path = out_dir / f"{base}.redacted_vector.pdf"
        try:
            redact_pdf_vector(pdf_path, anon.audit, vec_path)
            outputs["pdf_vector"] = str(vec_path)
        except Exception:
            pass
    if also_make_raster_burn and fitz is not None:
        ras_path = out_dir / f"{base}.redacted_raster.pdf"
        redact_pdf_raster(pdf_path, anon.audit, ras_path)
        outputs["pdf_raster"] = str(ras_path)
    return outputs
 if __name__ == "__main__":
    import argparse
    ap = argparse.ArgumentParser(description="Anonymiser PDF (regex + NER ONNX optionnel)")
    ap.add_argument("pdf", type=str)
    ap.add_argument("--out", type=str, default="out")
    ap.add_argument("--no-vector", action="store_true")
    ap.add_argument("--raster", action="store_true")
    ap.add_argument("--config", type=str, default=str(Path("config/dictionnaires.yml")))
    ap.add_argument("--hf", action="store_true", help="Activer NER ONNX sur narratif (nécessite ner_manager_onnx)")
    ap.add_argument("--model", type=str, default="cmarkea/distilcamembert-base-ner")
    args = ap.parse_args()
    manager = None
    if args.hf and NerModelManager is not None:
        manager = NerModelManager(cache_dir=Path("models"))
        manager.load(args.model)
    outs = process_pdf(
        Path(args.pdf),
        Path(args.out),
        make_vector_redaction=not args.no_vector,
        also_make_raster_burn=args.raster,
        config_path=Path(args.config),
        use_hf=bool(args.hf),
        ner_manager=manager,
        ner_thresholds=NerThresholds() if NerThresholds else None,
    )
    print(json.dumps(outs, indent=2, ensure_ascii=False))
--- a/build_windows.bat
+++ b/build_windows.bat
@@ -0,0 +1,49 @@
@echo off
 REM ============================================================
 REM  build_windows.bat — Compile Pseudonymisation GUI v5
 REM  avec Nuitka (Python -> C -> .exe natif Windows)
 REM ============================================================
 REM  Prerequis :
 REM    - Python 3.10+ installe et dans le PATH
 REM    - pip install nuitka orderedset zstandard
 REM    - pip install -r requirements.txt
 REM    - Visual Studio Build Tools (ou MinGW64)
 REM ============================================================
 setlocal
 set APP_NAME=Pseudonymisation
 set ENTRY=Pseudonymisation_Gui_V5.py
 echo [build] Verification de Python...
 python --version || (echo Python introuvable & exit /b 1)
 echo [build] Installation de Nuitka si absent...
 pip install nuitka orderedset zstandard 2>nul
 echo [build] Compilation avec Nuitka (cela peut prendre 5-15 min)...
 python -m nuitka ^
    --standalone ^
    --onefile ^
    --enable-plugin=tk-inter ^
    --include-module=anonymizer_core_refactored_onnx ^
    --include-module=ner_manager_onnx ^
    --include-module=eds_pseudo_manager ^
    --include-data-dir=config=config ^
    --windows-console-mode=disable ^
    --output-filename=%APP_NAME%.exe ^
    --company-name="Hopital" ^
    --product-name="Pseudonymisation de PDF" ^
    --product-version=5.0.0 ^
    --file-description="Pseudonymisation automatique de documents PDF" ^
    --assume-yes-for-downloads ^
    --remove-output ^
    %ENTRY%
 if %ERRORLEVEL% NEQ 0 (
    echo [build] ERREUR : la compilation a echoue.
    exit /b 1
 )
 echo [build] OK — Executable cree : %APP_NAME%.exe
 echo [build] Copiez %APP_NAME%.exe + le dossier config/ sur la machine cible.
 endlocal
--- a/config/dictionnaires.yml
+++ b/config/dictionnaires.yml
@@ -0,0 +1,37 @@
 version: 1
 encoding: utf-8
 normalization: NFKC
 whitelist:
  sections_titres:
  - DIM
  - GHM
  - GHS
  - RUM
  - COMPTE
  - RENDU
  - DIAGNOSTIC
  noms_maj_excepts:
  - Médecin DIM
  - Praticien conseil
  org_gpe_keep: true
 blacklist:
  force_mask_terms:
  - CENTRE HOSPITALIER COTE BASQUE
  - 'Dates du séjour :'
  - CONCERTATION
  force_mask_regex: []
 kv_labels_preserve:
 - FINESS
 - IPP
 - N° OGC
 - Etablissement
 regex_overrides:
 - name: OGC_court
  pattern: \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
  placeholder: '[OGC]'
  flags:
  - IGNORECASE
 flags:
  case_insensitive: true
  unicode_word_boundaries: true
  regex_engine: python
--- a/eds_pseudo_manager.py
+++ b/eds_pseudo_manager.py
@@ -0,0 +1,114 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 EDS-Pseudo Manager — Interface compatible NerModelManager pour le modèle AP-HP eds-pseudo.
 --------------------------------------------------------------------------------------------
 Utilise edsnlp pour charger le pipeline eds-pseudo (F1=0.97 sur données cliniques AP-HP).
 Mapping des 13 labels EDS-Pseudo vers les clés PLACEHOLDERS du core d'anonymisation.
 Dépendance : pip install 'edsnlp[ml]>=0.12.0'
 """
 from __future__ import annotations
 from pathlib import Path
 from typing import Any, Dict, List, Optional
 try:
    import edsnlp
    _EDSNLP_AVAILABLE = True
 except ImportError:
    edsnlp = None  # type: ignore
    _EDSNLP_AVAILABLE = False
 # Mapping labels EDS-Pseudo → clés PLACEHOLDERS (anonymizer_core)
 EDS_LABEL_MAP: Dict[str, str] = {
    "NOM": "NOM",
    "PRENOM": "NOM",
    "MAIL": "EMAIL",
    "TEL": "TEL",
    "SECU": "NIR",
    "ADRESSE": "ADRESSE",
    "ZIP": "CODE_POSTAL",
    "VILLE": "VILLE",
    "HOPITAL": "ETAB",
    "DATE": "DATE",
    "DATE_NAISSANCE": "DATE_NAISSANCE",
    "IPP": "IPP",
    "NDA": "NDA",
 }
 # Catalogue affiché dans la GUI
 EDS_MODELS_CATALOG: Dict[str, str] = {
    "EDS-Pseudo AP-HP (edsnlp)": "AP-HP/eds-pseudo-public",
 }
 class EdsPseudoManager:
    """Gestionnaire pour le modèle EDS-Pseudo (edsnlp). Même interface que NerModelManager."""
    def __init__(self, cache_dir: Optional[Path] = None):
        self.cache_dir = Path(cache_dir) if cache_dir else None
        self.model_id: Optional[str] = None
        self._nlp = None
        self._loaded = False
    def is_loaded(self) -> bool:
        return self._loaded and self._nlp is not None
    def load(self, model_id_or_path: str = "AP-HP/eds-pseudo-public") -> None:
        if not _EDSNLP_AVAILABLE:
            raise RuntimeError("edsnlp non disponible. Installez : pip install 'edsnlp[ml]>=0.12.0'")
        self.unload()
        self.model_id = model_id_or_path
        path = Path(model_id_or_path)
        if path.is_dir():
            # Chargement local (modèle fine-tuné)
            self._nlp = edsnlp.load(path)
        else:
            # Chargement depuis HuggingFace Hub
            self._nlp = edsnlp.load(model_id_or_path)
        self._loaded = True
    def unload(self) -> None:
        self._nlp = None
        self._loaded = False
        self.model_id = None
    def models_catalog(self) -> Dict[str, str]:
        return dict(EDS_MODELS_CATALOG)
    def infer_paragraphs(
        self,
        paragraphs: List[str],
        thresholds: Optional[Any] = None,
        max_length: int = 384,
        stride: int = 128,
    ) -> List[List[Dict[str, Any]]]:
        """Pour chaque paragraphe, retourne une liste d'entités détectées.
        Chaque entité a les clés : entity_group, word, start, end, score, eds_mapped_key.
        """
        if not self.is_loaded():
            return [[] for _ in paragraphs]
        out: List[List[Dict[str, Any]]] = []
        for para in paragraphs:
            if not para.strip():
                out.append([])
                continue
            doc = self._nlp(para)
            ents: List[Dict[str, Any]] = []
            for ent in doc.ents:
                label = ent.label_.upper()
                mapped = EDS_LABEL_MAP.get(label, None)
                if mapped is None:
                    continue
                ents.append({
                    "entity_group": label,
                    "word": ent.text,
                    "start": ent.start_char,
                    "end": ent.end_char,
                    "score": 1.0,  # edsnlp ne fournit pas de score de confiance
                    "eds_mapped_key": mapped,
                })
            out.append(ents)
        return out
--- a/install.sh
+++ b/install.sh
@@ -0,0 +1,92 @@
 #!/usr/bin/env bash
 set -euo pipefail
 # ===========================
 #  install.sh — GUI ONNX only
 #  Ubuntu 24.04, Python 3.12
 # ===========================
 APP_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 VENV_DIR="${APP_DIR}/.venv"
 PYTHON_BIN="${PYTHON_BIN:-python3}"
 GUI_MODELS="Pseudonymisation_Gui_V5.py"   # nom du fichier GUI (vue unique v5)
 usage() {
  cat <<'USAGE'
 Usage:
  ./install.sh --setup   # crée .venv + installe requirements (ONNX/Optimum/Transformers inclus)
  ./install.sh --run     # lance la GUI ONNX
  ./install.sh --clean   # supprime le venv .venv
 USAGE
 }
 log() { echo -e "[install] $*"; }
 die() { echo -e "[install:ERROR] $*" >&2; exit 1; }
 exists() { command -v "$1" >/dev/null 2>&1; }
 ensure_python() {
  exists "${PYTHON_BIN}" || die "Python introuvable. Installez python3 (sudo apt-get install -y python3 python3-venv)."
  log "Python: $(${PYTHON_BIN} -V)"
 }
 ensure_venv() {
  if [[ ! -d "${VENV_DIR}" ]]; then
    log "Création du virtualenv (.venv)…"
    "${PYTHON_BIN}" -m venv "${VENV_DIR}" || die "Échec création venv."
  fi
  # shellcheck disable=SC1091
  source "${VENV_DIR}/bin/activate"
  python -m pip install --upgrade pip setuptools wheel >/dev/null
 }
 install_requirements() {
  # shellcheck disable=SC1091
  source "${VENV_DIR}/bin/activate"
  [[ -f "${APP_DIR}/requirements.txt" ]] || die "requirements.txt introuvable à la racine du projet."
  log "Installation des dépendances (requirements.txt)…"
  pip install -r "${APP_DIR}/requirements.txt"
  # docTR pour OCR de PDF scannés (optionnel, nécessite torch)
  log "Installation de docTR pour l'OCR (optionnel)…"
  pip install "python-doctr[torch]" || log "⚠ docTR non installé (optionnel – OCR désactivé pour les PDF scannés)"
 }
 run_gui_models() {
  # shellcheck disable=SC1091
  source "${VENV_DIR}/bin/activate"
  export PYTHONUTF8=1
  [[ -f "${APP_DIR}/${GUI_MODELS}" ]] || die "Fichier ${GUI_MODELS} introuvable à la racine du projet."
  # Vérif onnxruntime
  python - <<'PY' || (echo "[install] ONNX Runtime manquant (vérifiez requirements)."; exit 1)
 import onnxruntime as ort
 print("onnxruntime OK:", ort.__version__)
 PY
  log "Lancement: ${GUI_MODELS}"
  exec python "${APP_DIR}/${GUI_MODELS}"
 }
 clean_venv() {
  [[ -d "${VENV_DIR}" ]] && rm -rf "${VENV_DIR}"
  log "Venv supprimé."
 }
 MODE="${1:-}"
 [[ -z "${MODE}" ]] && { usage; exit 0; }
 ensure_python
 case "${MODE}" in
  --setup)
    ensure_venv
    install_requirements
    log "✅ Installation terminée. Lancez: ./install.sh --run"
    ;;
  --run)
    ensure_venv
    run_gui_models
    ;;
  --clean)
    clean_venv
    ;;
  *)
    usage; exit 1 ;;
 esac
--- a/ner_manager_onnx.py
+++ b/ner_manager_onnx.py
@@ -0,0 +1,187 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 ONNX NER Model Manager (CamemBERT family)
 -----------------------------------------
 - Chargement paresseux (après lancement de l'appli)
 - Support des modèles ONNX publiés (model.onnx / model_quantized.onnx)
 - Fallback : export ONNX à la volée si seul un modèle PyTorch est fourni
 - Prédiction par paragraphes (token-classification), agrégation 'simple'
 Dépendances :
  pip install onnxruntime optimum transformers sentencepiece
 """
 from __future__ import annotations
 from dataclasses import dataclass
 from pathlib import Path
 from typing import Dict, List, Optional, Any
 import os
 from transformers import AutoTokenizer, AutoConfig, pipeline
 try:
    from optimum.onnxruntime import ORTModelForTokenClassification
 except Exception as e:
    ORTModelForTokenClassification = None  # type: ignore
 try:
    from optimum.exporters.onnx import export
    from optimum.exporters.tasks import TasksManager
 except Exception:
    export = None  # type: ignore
    TasksManager = None  # type: ignore
 DEFAULT_MODELS = {
    # Rapide & léger (quantifié quand présent)
    "DistilCamemBERT-NER (ONNX)": "cmarkea/distilcamembert-base-ner",
    # Robuste & répandu
    "CamemBERT-NER (ONNX)": "Jean-Baptiste/camembert-ner",
 }
 SUPPORTED_PER_TAGS = {"PER", "PERSON"}
 SUPPORTED_LOC_TAGS = {"LOC"}
 SUPPORTED_ORG_TAGS = {"ORG"}
 SUPPORTED_DATE_TAGS = {"DATE"}
@dataclass
 class NerThresholds:
    per: float = 0.90
    org: float = 0.90
    loc: float = 0.90
    date: float = 0.85
 class NerModelManager:
    def __init__(self, cache_dir: Optional[Path] = None, prefer_quantized: bool = True, providers: Optional[List[str]] = None):
        self.cache_dir = Path(cache_dir) if cache_dir else None
        self.prefer_quantized = prefer_quantized
        self.providers = providers or ["CPUExecutionProvider"]
        self.model_id: Optional[str] = None
        self._pipe = None
        self._tokenizer = None
        self._loaded = False
    # ------------------ public API ------------------
    def is_loaded(self) -> bool:
        return self._loaded and self._pipe is not None
    def load(self, model_id_or_path: str, try_export_if_missing_onnx: bool = True) -> None:
        """Charge un modèle ONNX; si pas d'ONNX et try_export=True, exporte depuis PyTorch.
        - Supporte un dossier local (contenant model.onnx) ou un repo HF.
        """
        if ORTModelForTokenClassification is None:
            raise RuntimeError("optimum.onnxruntime introuvable. Installez 'optimum' et 'onnxruntime'.")
        self.unload()
        self.model_id = model_id_or_path
        cache = str(self.cache_dir) if self.cache_dir else None
        # 1) essaie ONNX quantifié puis normal
        candidates = []
        if self.prefer_quantized:
            candidates.append("model_quantized.onnx")
        candidates.append("model.onnx")
        loaded = False
        last_err: Optional[Exception] = None
        for fname in candidates:
            try:
                model = ORTModelForTokenClassification.from_pretrained(
                    self.model_id,
                    file_name=fname,
                    cache_dir=cache,
                    provider=self.providers[0],
                )
                tokenizer = AutoTokenizer.from_pretrained(self.model_id, cache_dir=cache, use_fast=True)
                self._pipe = pipeline(
                    task="token-classification",
                    model=model,
                    tokenizer=tokenizer,
                    aggregation_strategy="simple",
                )
                self._tokenizer = tokenizer
                loaded = True
                break
            except Exception as e:
                last_err = e
                continue
        # 2) fallback : export ONNX si demandé
        if not loaded and try_export_if_missing_onnx:
            if export is None or TasksManager is None:
                raise RuntimeError("Impossible d'exporter en ONNX (optimum.exporters manquant).")
            try:
                tmp_dir = Path(cache or ".") / ".onnx_export"
                tmp_dir.mkdir(parents=True, exist_ok=True)
                task = "token-classification"
                onnx_paths = export(
                    model_name_or_path=self.model_id,
                    output=tmp_dir,
                    task=task,
                    opset=17,
                    optimize="O2",
                    atol=1e-4,
                )
                model = ORTModelForTokenClassification.from_pretrained(str(tmp_dir), file_name="model.onnx", provider=self.providers[0])
                tokenizer = AutoTokenizer.from_pretrained(self.model_id, cache_dir=cache, use_fast=True)
                self._pipe = pipeline(task="token-classification", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
                self._tokenizer = tokenizer
                loaded = True
            except Exception as e:
                last_err = e
        if not loaded:
            raise RuntimeError(f"Échec de chargement/export ONNX pour '{self.model_id}': {last_err}")
        self._loaded = True
    def unload(self) -> None:
        self._pipe = None
        self._tokenizer = None
        self._loaded = False
    def models_catalog(self) -> Dict[str, str]:
        return dict(DEFAULT_MODELS)
    # ------------------ inference ------------------
    def infer_paragraphs(self, paragraphs: List[str], thresholds: Optional[NerThresholds] = None, max_length: int = 384, stride: int = 128) -> List[List[Dict[str, Any]]]:
        """Retourne, pour chaque paragraphe, une liste d'entités agrégées.
        Chaque entité a les clés: entity_group, score, word, start, end.
        """
        if not self.is_loaded():
            return [[] for _ in paragraphs]
        th = thresholds or NerThresholds()
        out: List[List[Dict[str, Any]]] = []
        for para in paragraphs:
            if not para.strip():
                out.append([])
                continue
            # Tronquer manuellement si nécessaire (compatibilité transformers récents)
            input_text = para
            if self._tokenizer:
                tok_len = len(self._tokenizer.encode(para, add_special_tokens=True))
                if tok_len > 512:
                    tokens = self._tokenizer.encode(para, add_special_tokens=False)[:510]
                    input_text = self._tokenizer.decode(tokens)
            ents = self._pipe(
                input_text,
                aggregation_strategy="simple",
            )
            # Filtrage par seuils
            filtered: List[Dict[str, Any]] = []
            for e in ents:
                grp = (e.get("entity_group") or e.get("entity") or "").upper()
                sc = float(e.get("score", 0.0))
                if grp in SUPPORTED_PER_TAGS and sc >= th.per:
                    filtered.append(e)
                elif grp in SUPPORTED_ORG_TAGS and sc >= th.org:
                    filtered.append(e)
                elif grp in SUPPORTED_LOC_TAGS and sc >= th.loc:
                    filtered.append(e)
                elif grp in SUPPORTED_DATE_TAGS and sc >= th.date:
                    filtered.append(e)
            out.append(filtered)
        return out
--- a/pdf_mask_designer.py
+++ b/pdf_mask_designer.py
@@ -0,0 +1,439 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 PDF Mask Designer (Standalone)
 ------------------------------
 - Ouvre un PDF de référence
 - Permet de "dessiner des masques" (rectangles) à la souris, par page
 - Sauvegarde/charge un template (YAML/JSON) décrivant les masques
 - Prévisualise l'application des masques sur 1–2 PDF
 - Applique les masques :
   * Vectoriel : annotations de redaction (le texte est supprimé)
   * Raster : "brûle" les boîtes noires dans l'image de page (sécurité maximale)
 - Journal/Audit : écrit *.audit.jsonl avec MASK_TEMPLATE + bbox + nom de template
 Dépendances : PyMuPDF (pymupdf), Pillow, PyYAML
    pip install pymupdf==1.24.9 Pillow==10.2.0 PyYAML==6.0.2
 """
 from __future__ import annotations
 import io
 import json
 import math
 import os
 from dataclasses import dataclass, asdict
 from pathlib import Path
 from typing import Dict, List, Optional, Tuple, Any
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 from PIL import Image, ImageTk
 import fitz  # PyMuPDF
 import yaml
 APP_TITLE = "PDF Mask Designer (Standalone)"
 TEMPLATE_VERSION = 1
 # ----------------------------- Data structures -----------------------------
@dataclass
 class MaskRect:
    page: int
    x0: float
    y0: float
    x1: float
    y1: float
    label: str = "MASK"
@dataclass
 class Template:
    name: str
    page_size: Tuple[float, float]  # (width, height) in PDF points
    version: int = TEMPLATE_VERSION
    masks: List[MaskRect] = None
    def to_dict(self) -> Dict[str, Any]:
        return {
            "version": self.version,
            "name": self.name,
            "page_size": {"width": self.page_size[0], "height": self.page_size[1]},
            "masks": [asdict(m) for m in (self.masks or [])],
        }
    @staticmethod
    def from_dict(d: Dict[str, Any]) -> "Template":
        ps = d.get("page_size") or {}
        masks = []
        for m in d.get("masks", []):
            masks.append(MaskRect(
                page=int(m["page"]),
                x0=float(m["x0"]), y0=float(m["y0"]),
                x1=float(m["x1"]), y1=float(m["y1"]),
                label=m.get("label", "MASK")
            ))
        name = d.get("name") or "template"
        return Template(name=name, page_size=(float(ps.get("width", 595)), float(ps.get("height", 842))),
                        version=int(d.get("version", TEMPLATE_VERSION)), masks=masks)
 # ----------------------------- Utility funcs ------------------------------
 def clamp(v, a, b): return max(a, min(b, v))
 def rect_norm(x0, y0, x1, y1) -> Tuple[float, float, float, float]:
    return (min(x0, x1), min(y0, y1), max(x0, x1), max(y0, y1))
 def page_pix(doc: fitz.Document, pno: int, zoom: float) -> Image.Image:
    page = doc[pno]
    mat = fitz.Matrix(zoom, zoom)
    pix = page.get_pixmap(matrix=mat, annots=False)
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    return img
 def draw_overlay(img: Image.Image, rects: List[MaskRect], zoom: float, page: int) -> Image.Image:
    # returns a copy with alpha-red rectangles
    from PIL import ImageDraw
    out = img.copy()
    draw = ImageDraw.Draw(out, "RGBA")
    for r in rects:
        if r.page != page: continue
        draw.rectangle([r.x0*zoom, r.y0*zoom, r.x1*zoom, r.y1*zoom], fill=(0,0,0,110), outline=(0,0,0,220), width=2)
    return out
 def save_template_yaml(tpl: Template, path: Path):
    with open(path, "w", encoding="utf-8") as f:
        yaml.safe_dump(tpl.to_dict(), f, allow_unicode=True, sort_keys=False)
 def load_template_yaml(path: Path) -> Template:
    d = yaml.safe_load(path.read_text(encoding="utf-8")) or {}
    return Template.from_dict(d)
 # ----------------------------- Application logic --------------------------
 def apply_template_vector(pdf_in: Path, pdf_out: Path, tpl: Template, audit_path: Path):
    doc = fitz.open(str(pdf_in))
    w0, h0 = tpl.page_size
    with audit_path.open("w", encoding="utf-8") as audit:
        for pno in range(len(doc)):
            page = doc[pno]
            pw, ph = page.rect.width, page.rect.height
            # scaling if page size differs (simple proportional fit)
            sx, sy = pw / w0 if w0 else 1.0, ph / h0 if h0 else 1.0
            for m in tpl.masks or []:
                if m.page not in (-1, pno):  # -1 = all pages
                    continue
                r = fitz.Rect(m.x0*sx, m.y0*sy, m.x1*sx, m.y1*sy)
                page.add_redact_annot(r, fill=(0,0,0))
                audit.write(json.dumps({
                    "kind": "MASK_TEMPLATE", "template": tpl.name, "page": pno,
                    "bbox": [round(r.x0,2), round(r.y0,2), round(r.x1,2), round(r.y1,2)],
                    "mode": "vector"
                }, ensure_ascii=False) + "\n")
            try:
                page.apply_redactions()
            except Exception:
                pass
    doc.save(str(pdf_out), deflate=True, garbage=4, clean=True, incremental=False)
    doc.close()
 def apply_template_raster(pdf_in: Path, pdf_out: Path, tpl: Template, dpi: int, audit_path: Path):
    doc = fitz.open(str(pdf_in))
    out = fitz.open()
    w0, h0 = tpl.page_size
    with audit_path.open("w", encoding="utf-8") as audit:
        for pno in range(len(doc)):
            page = doc[pno]; pw, ph = page.rect.width, page.rect.height
            sx, sy = pw / w0 if w0 else 1.0, ph / h0 if h0 else 1.0
            zoom = dpi/72.0
            pix = page.get_pixmap(matrix=fitz.Matrix(zoom, zoom), annots=False)
            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
            from PIL import ImageDraw
            draw = ImageDraw.Draw(img)
            for m in tpl.masks or []:
                if m.page not in (-1, pno): continue
                r = fitz.Rect(m.x0*sx, m.y0*sy, m.x1*sx, m.y1*sy)
                draw.rectangle([r.x0*zoom, r.y0*zoom, r.x1*zoom, r.y1*zoom], fill=(0,0,0))
                audit.write(json.dumps({
                    "kind": "MASK_TEMPLATE", "template": tpl.name, "page": pno,
                    "bbox": [round(r.x0,2), round(r.y0,2), round(r.x1,2), round(r.y1,2)],
                    "mode": "raster"
                }, ensure_ascii=False) + "\n")
            buf = io.BytesIO()
            img.save(buf, format="PNG"); buf.seek(0)
            dst = out.new_page(width=page.rect.width, height=page.rect.height)
            dst.insert_image(page.rect, stream=buf.getvalue())
    out.save(str(pdf_out), deflate=True, garbage=4, clean=True)
    out.close(); doc.close()
 # ----------------------------- GUI ------------------------------
 class MaskDesignerApp:
    def __init__(self, root: tk.Tk):
        self.root = root
        self.root.title(APP_TITLE)
        self.root.geometry("1280x900")
        self.zoom = 1.25  # affichage
        self.doc: Optional[fitz.Document] = None
        self.doc_path: Optional[Path] = None
        self.curr_page = 0
        self.curr_image: Optional[Image.Image] = None
        self.tk_image: Optional[ImageTk.PhotoImage] = None
        self.masks: Dict[int, List[MaskRect]] = {}  # per-page
        self.template_name = tk.StringVar(value="template_masks")
        self.status = tk.StringVar(value="Prêt.")
        self.raster_dpi = tk.IntVar(value=200)
        self.is_drawing = False
        self.start_xy: Optional[Tuple[int,int]] = None
        self._build_ui()
    # UI layout
    def _build_ui(self):
        top = tk.Frame(self.root, padx=8, pady=8)
        top.pack(fill=tk.BOTH, expand=True)
        bar = tk.Frame(top); bar.pack(fill=tk.X)
        tk.Button(bar, text="Ouvrir PDF…", command=self.open_pdf).pack(side=tk.LEFT)
        tk.Button(bar, text="←", command=self.prev_page).pack(side=tk.LEFT, padx=(8,2))
        tk.Button(bar, text="→", command=self.next_page).pack(side=tk.LEFT, padx=2)
        tk.Button(bar, text="Zoom -", command=lambda: self.set_zoom( max(0.5, self.zoom-0.1) )).pack(side=tk.LEFT, padx=6)
        tk.Button(bar, text="Zoom +", command=lambda: self.set_zoom( self.zoom+0.1 )).pack(side=tk.LEFT, padx=2)
        tk.Label(bar, text="Nom template :").pack(side=tk.LEFT, padx=(12,2))
        tk.Entry(bar, textvariable=self.template_name, width=24).pack(side=tk.LEFT)
        tk.Button(bar, text="Sauver template…", command=self.save_template).pack(side=tk.LEFT, padx=6)
        tk.Button(bar, text="Charger template…", command=self.load_template).pack(side=tk.LEFT, padx=2)
        tk.Button(bar, text="Effacer masques page", command=self.clear_page_masks).pack(side=tk.LEFT, padx=12)
        tools = tk.Frame(top); tools.pack(fill=tk.X, pady=(4,2))
        tk.Label(tools, text="Prévisualiser / Appliquer sur un échantillon :").pack(side=tk.LEFT)
        tk.Button(tools, text="Prévisualiser (vector)", command=self.preview_vector).pack(side=tk.LEFT, padx=6)
        tk.Button(tools, text="Prévisualiser (raster)", command=self.preview_raster).pack(side=tk.LEFT, padx=2)
        tk.Label(tools, text="DPI raster:").pack(side=tk.LEFT, padx=(12,2))
        tk.Entry(tools, textvariable=self.raster_dpi, width=6).pack(side=tk.LEFT)
        tk.Button(tools, text="Appliquer (vector)…", command=self.apply_vector_batch).pack(side=tk.LEFT, padx=(16,4))
        tk.Button(tools, text="Appliquer (raster)…", command=self.apply_raster_batch).pack(side=tk.LEFT, padx=2)
        self.canvas = tk.Canvas(top, bg="#f5f7fb")
        self.canvas.pack(fill=tk.BOTH, expand=True, pady=(6,4))
        self.canvas.bind("<ButtonPress-1>", self.on_down)
        self.canvas.bind("<B1-Motion>", self.on_drag)
        self.canvas.bind("<ButtonRelease-1>", self.on_up)
        statusbar = tk.Label(self.root, textvariable=self.status, anchor="w", bd=1, relief=tk.SUNKEN)
        statusbar.pack(side=tk.BOTTOM, fill=tk.X)
    # Document handling
    def open_pdf(self):
        path = filedialog.askopenfilename(filetypes=[("PDF", "*.pdf")])
        if not path: return
        try:
            self.doc = fitz.open(path)
            self.doc_path = Path(path)
            self.curr_page = 0
            self.masks.clear()
            self.template_name.set(self.doc_path.stem + "_template")
            self.refresh()
            self.status.set(f"PDF ouvert : {Path(path).name} — {len(self.doc)} page(s)")
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'ouvrir le PDF : {e}")
    def refresh(self):
        if not self.doc: return
        img = page_pix(self.doc, self.curr_page, self.zoom)
        # overlay current page masks
        rects = self.masks.get(self.curr_page, [])
        img_o = draw_overlay(img, rects, 1.0, self.curr_page)
        self.curr_image = img_o
        self.tk_image = ImageTk.PhotoImage(img_o)
        self.canvas.delete("all")
        self.canvas.create_image(0,0, anchor="nw", image=self.tk_image)
        self.canvas.config(scrollregion=(0,0,img_o.width, img_o.height))
    def prev_page(self):
        if not self.doc: return
        self.curr_page = max(0, self.curr_page-1)
        self.refresh()
    def next_page(self):
        if not self.doc: return
        self.curr_page = min(len(self.doc)-1, self.curr_page+1)
        self.refresh()
    def set_zoom(self, z: float):
        self.zoom = clamp(z, 0.5, 3.0)
        self.refresh()
    # Drawing masks
    def on_down(self, ev):
        if not self.doc: return
        self.is_drawing = True
        self.start_xy = (ev.x, ev.y)
        self._preview_rect = self.canvas.create_rectangle(ev.x, ev.y, ev.x, ev.y, outline="#000", width=2)
    def on_drag(self, ev):
        if not self.doc or not self.is_drawing: return
        sx, sy = self.start_xy
        self.canvas.coords(self._preview_rect, sx, sy, ev.x, ev.y)
    def on_up(self, ev):
        if not self.doc or not self.is_drawing: return
        self.is_drawing = False
        sx, sy = self.start_xy
        x0, y0, x1, y1 = rect_norm(sx, sy, ev.x, ev.y)
        # convert screen px to PDF points
        page = self.doc[self.curr_page]
        # we rendered with zoom, but here current image is at display resolution (zoom applied in page_pix)
        # So we need to divide by zoom to get PDF points (since page_pix used Matrix(zoom, zoom))
        z = self.zoom
        rx0, ry0, rx1, ry1 = x0 / z, y0 / z, x1 / z, y1 / z
        rect = MaskRect(page=self.curr_page, x0=rx0, y0=ry0, x1=rx1, y1=ry1, label="MASK")
        self.masks.setdefault(self.curr_page, []).append(rect)
        self.canvas.delete(self._preview_rect)
        self.refresh()
        self.status.set(f"Masque ajouté p.{self.curr_page+1}: ({int(rx0)},{int(ry0)})–({int(rx1)},{int(ry1)})")
    # Template I/O
    def _current_template(self) -> Template:
        if not self.doc:
            raise RuntimeError("Aucun PDF ouvert.")
        page0 = self.doc[0]
        tpl = Template(
            name=self.template_name.get().strip() or "template",
            page_size=(page0.rect.width, page0.rect.height),
            masks=[m for arr in self.masks.values() for m in arr]
        )
        return tpl
    def save_template(self):
        try:
            tpl = self._current_template()
        except Exception as e:
            messagebox.showwarning("Info", str(e)); return
        path = filedialog.asksaveasfilename(defaultextension=".yml",
                                            filetypes=[("YAML", "*.yml *.yaml"), ("JSON", "*.json")],
                                            initialfile=f"{tpl.name}.yml")
        if not path: return
        p = Path(path)
        try:
            if p.suffix.lower() in (".yml", ".yaml"):
                save_template_yaml(tpl, p)
            else:
                p.write_text(json.dumps(tpl.to_dict(), ensure_ascii=False, indent=2), encoding="utf-8")
            messagebox.showinfo("OK", f"Template enregistré : {p.name}")
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'écrire le template : {e}")
    def load_template(self):
        path = filedialog.askopenfilename(filetypes=[("YAML/JSON", "*.yml *.yaml *.json")])
        if not path: return
        p = Path(path)
        try:
            if p.suffix.lower() in (".yml", ".yaml"):
                tpl = load_template_yaml(p)
            else:
                tpl = Template.from_dict(json.loads(p.read_text(encoding="utf-8")))
            self.template_name.set(tpl.name)
            # reset masks and map to current doc pages (keep same page numbers; -1 means all pages)
            self.masks.clear()
            for m in tpl.masks or []:
                self.masks.setdefault(m.page, []).append(m)
            self.refresh()
            self.status.set(f"Template chargé : {p.name}")
        except Exception as e:
            messagebox.showerror("Erreur", f"Template invalide : {e}")
    def clear_page_masks(self):
        if not self.doc: return
        if self.curr_page in self.masks:
            del self.masks[self.curr_page]
            self.refresh()
            self.status.set(f"Masques de la page {self.curr_page+1} supprimés.")
    # Preview / Apply
    def _build_template_from_state(self) -> Optional[Template]:
        if not self.doc:
            messagebox.showwarning("Info", "Ouvrez d'abord un PDF de référence.")
            return None
        return self._current_template()
    def preview_vector(self):
        tpl = self._build_template_from_state()
        if not tpl: return
        samp = filedialog.askopenfilenames(title="Choisir 1 ou 2 PDF pour prévisualisation", filetypes=[("PDF","*.pdf")])
        if not samp: return
        for i, s in enumerate(samp[:2], start=1):
            pdf_in = Path(s)
            out_dir = pdf_in.parent / "masked_preview"
            out_dir.mkdir(exist_ok=True)
            pdf_out = out_dir / f"{pdf_in.stem}.preview_vector.pdf"
            audit = out_dir / f"{pdf_in.stem}.audit.jsonl"
            try:
                apply_template_vector(pdf_in, pdf_out, tpl, audit)
            except Exception as e:
                messagebox.showerror("Erreur", f"Prévisualisation vectorielle échouée sur {pdf_in.name} : {e}")
        messagebox.showinfo("Prévisualisation", "Terminé (vectoriel). Ouvrez le dossier 'masked_preview'.")
    def preview_raster(self):
        tpl = self._build_template_from_state()
        if not tpl: return
        samp = filedialog.askopenfilenames(title="Choisir 1 ou 2 PDF pour prévisualisation", filetypes=[("PDF","*.pdf")])
        if not samp: return
        dpi = int(self.raster_dpi.get())
        for i, s in enumerate(samp[:2], start=1):
            pdf_in = Path(s)
            out_dir = pdf_in.parent / "masked_preview"
            out_dir.mkdir(exist_ok=True)
            pdf_out = out_dir / f"{pdf_in.stem}.preview_raster.pdf"
            audit = out_dir / f"{pdf_in.stem}.audit.jsonl"
            try:
                apply_template_raster(pdf_in, pdf_out, tpl, dpi, audit)
            except Exception as e:
                messagebox.showerror("Erreur", f"Prévisualisation raster échouée sur {pdf_in.name} : {e}")
        messagebox.showinfo("Prévisualisation", "Terminé (raster). Ouvrez le dossier 'masked_preview'.")
    def apply_vector_batch(self):
        tpl = self._build_template_from_state()
        if not tpl: return
        files = filedialog.askopenfilenames(title="Choisir des PDF à traiter (vectoriel)", filetypes=[("PDF","*.pdf")])
        if not files: return
        for s in files:
            pdf_in = Path(s)
            out_dir = pdf_in.parent / "masked"
            out_dir.mkdir(exist_ok=True)
            pdf_out = out_dir / f"{pdf_in.stem}.masked_vector.pdf"
            audit = out_dir / f"{pdf_in.stem}.audit.jsonl"
            try:
                apply_template_vector(pdf_in, pdf_out, tpl, audit)
            except Exception as e:
                messagebox.showerror("Erreur", f"Échec sur {pdf_in.name}: {e}")
        messagebox.showinfo("Terminé", "Masques appliqués (vectoriel).")
    def apply_raster_batch(self):
        tpl = self._build_template_from_state()
        if not tpl: return
        files = filedialog.askopenfilenames(title="Choisir des PDF à traiter (raster)", filetypes=[("PDF","*.pdf")])
        if not files: return
        dpi = int(self.raster_dpi.get())
        for s in files:
            pdf_in = Path(s)
            out_dir = pdf_in.parent / "masked"
            out_dir.mkdir(exist_ok=True)
            pdf_out = out_dir / f"{pdf_in.stem}.masked_raster.pdf"
            audit = out_dir / f"{pdf_in.stem}.audit.jsonl"
            try:
                apply_template_raster(pdf_in, pdf_out, tpl, dpi, audit)
            except Exception as e:
                messagebox.showerror("Erreur", f"Échec sur {pdf_in.name}: {e}")
        messagebox.showinfo("Terminé", "Masques appliqués (raster).")
 # ----------------------------- Main ------------------------------
 def main():
    root = tk.Tk()
    app = MaskDesignerApp(root)
    root.mainloop()
 if __name__ == "__main__":
    main()
--- a/pseudonymisation_pipeline_gui_v3.py
+++ b/pseudonymisation_pipeline_gui_v3.py
@@ -0,0 +1,454 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
 Pseudonymisation – GUI v3 (UX simplifiée + infobulles + créateur de règle)
 --------------------------------------------------------------------------
 - Mode "Simple" par défaut (vocabulaire non-tech) + Mode "Avancé" (règles YAML)
 - Options de sortie claires : "PDF anonymisé (léger)" et "PDF image (très sûr)" avec infobulles
 - Gestion de dictionnaires YAML (whitelist/blacklist/overrides)
 - Créateur de règle (Mot exact / Forme proche / Modèle avancé) avec prévisualisation
 - Résumé par document (compte des remplacements) + bouton "Ouvrir dossier des résultats"
 - Auto-fix YAML : conversion automatique des patterns en bloc littéral si le YAML est mal cité
 Dépendances : tkinter, PyYAML, PyMuPDF, pdfplumber, pdfminer.six, Pillow
 """
 from __future__ import annotations
 import io
 import json
 import os
 import platform
 import re
 import queue
 import threading
 from pathlib import Path
 from typing import Dict, Any, List
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 # Core anonymisation (laisse ce fichier à côté de ce script)
 try:
    import anonymizer_core_refactored as core
 except Exception as e:
    raise SystemExit(f"Impossible d'importer anonymizer_core_refactored: {e}")
 try:
    import yaml
 except Exception:
    yaml = None
 APP_TITLE = "Pseudonymisation de PDF"
 DEFAULT_CFG = Path("config/dictionnaires.yml")
 # YAML par défaut (patterns en bloc littéral pour éviter les échappements)
 DEFAULTS_CFG_TEXT = """# dictionnaires.yml – valeurs par défaut
 version: 1
 encoding: "utf-8"
 normalization: "NFKC"
 whitelist:
  sections_titres: [DIM, GHM, GHS, RUM, COMPTE, RENDU, DIAGNOSTIC]
  noms_maj_excepts: ["Médecin DIM", "Praticien conseil"]
  org_gpe_keep: true
 blacklist:
  force_mask_terms: []
  force_mask_regex: []
 kv_labels_preserve: [FINESS, IPP, "N° OGC", Etablissement]
 regex_overrides:
  - name: OGC_court
    pattern: |-
      \b(?:N°\s*)?OGC\s*[:\-]?\s*([A-Za-z0-9\-]{1,3})\b
    placeholder: '[OGC]'
    flags: [IGNORECASE]
 flags:
  case_insensitive: true
  unicode_word_boundaries: true
  regex_engine: "python"
 """
 # ---------- util : ToolTip & helpers ----------
 class ToolTip:
    def __init__(self, widget, text: str):
        self.widget = widget
        self.text = text
        self.tip = None
        widget.bind("<Enter>", self.show)
        widget.bind("<Leave>", self.hide)
    def show(self, *_):
        if self.tip is not None: return
        x = self.widget.winfo_rootx() + 20
        y = self.widget.winfo_rooty() + self.widget.winfo_height() + 6
        self.tip = tw = tk.Toplevel(self.widget)
        tw.wm_overrideredirect(True)
        tw.wm_geometry(f"+{x}+{y}")
        lab = tk.Label(tw, text=self.text, justify=tk.LEFT, relief=tk.SOLID, borderwidth=1, padx=8, pady=6)
        lab.pack(ipadx=1)
    def hide(self, *_):
        if self.tip:
            self.tip.destroy(); self.tip=None
 def open_folder(path: Path):
    try:
        if platform.system() == "Windows":
            os.startfile(str(path))  # type: ignore[attr-defined]
        elif platform.system() == "Darwin":
            os.system(f"open '{path}'")
        else:
            os.system(f"xdg-open '{path}'")
    except Exception:
        pass
 # ---------- App ----------
 class App:
    def __init__(self, root: tk.Tk):
        self.root = root
        self.root.title(APP_TITLE)
        self.root.geometry("1250x880")
        # Etat
        self.dir_var = tk.StringVar()
        self.status_var = tk.StringVar(value="Prêt.")
        self.cfg_path = tk.StringVar(value=str(DEFAULT_CFG))
        self.queue: "queue.Queue[str]" = queue.Queue()
        # Choix format
        self.format_var = tk.StringVar(value="vector")  # "vector" ou "raster"
        # Mémoire config
        self.cfg_data: Dict[str, Any] = {}
        # UI
        self._build_ui()
        self._pump_logs()
        # Prépare YAML
        self._ensure_cfg_exists()
        self._load_cfg()
    # ----- UI -----
    def _build_ui(self):
        wrap = tk.Frame(self.root, padx=10, pady=10)
        wrap.pack(fill=tk.BOTH, expand=True)
        # Tabs Simple / Avancé
        self.nb = ttk.Notebook(wrap)
        self.nb.pack(fill=tk.BOTH, expand=True)
        # --- Onglet Simple ---
        simple = tk.Frame(self.nb, padx=12, pady=12)
        self.nb.add(simple, text="Simple")
        row = tk.Frame(simple); row.pack(fill=tk.X)
        tk.Label(row, text="Vos documents :").pack(side=tk.LEFT)
        tk.Entry(row, textvariable=self.dir_var).pack(side=tk.LEFT, fill=tk.X, expand=True, padx=6)
        tk.Button(row, text="Choisir…", command=self._browse).pack(side=tk.LEFT, padx=3)
        # Choix format clair
        fmt = tk.LabelFrame(simple, text="Format du document final")
        fmt.pack(fill=tk.X, pady=10)
        # PDF anonymisé (léger)
        rb_vec = tk.Radiobutton(fmt, text="PDF anonymisé (léger)", variable=self.format_var, value="vector")
        rb_vec.pack(anchor="w", padx=6, pady=2)
        ToolTip(rb_vec, "Supprime le texte et applique des boîtes noires.\nFichier léger. Le texte n’est plus lisible mais la sélection reste possible.")
        # PDF image (très sûr)
        rb_ras = tk.Radiobutton(fmt, text="PDF image (très sûr)", variable=self.format_var, value="raster")
        rb_ras.pack(anchor="w", padx=6, pady=2)
        ToolTip(rb_ras, "Convertit chaque page en image puis ajoute des boîtes noires.\nAucun texte résiduel. Fichier plus lourd et non sélectionnable.")
        # Boutons action
        actions = tk.Frame(simple); actions.pack(fill=tk.X, pady=(6,2))
        self.btn_run = tk.Button(actions, text="Anonymiser", command=self._run, height=1)
        self.btn_run.pack(side=tk.LEFT)
        tk.Button(actions, text="Aide (2 min)", command=self._show_help).pack(side=tk.LEFT, padx=6)
        self.btn_open_out = tk.Button(actions, text="Ouvrir le dossier de résultats", command=self._open_out, state=tk.DISABLED)
        self.btn_open_out.pack(side=tk.RIGHT)
        # Rapport
        tk.Label(simple, text="Rapport d’exécution :").pack(anchor="w")
        self.txt = tk.Text(simple, height=22)
        self.txt.pack(fill=tk.BOTH, expand=True, pady=(2,0))
        tk.Label(simple, textvariable=self.status_var, anchor="w").pack(fill=tk.X, pady=(4,0))
        # --- Onglet Avancé ---
        adv = tk.Frame(self.nb, padx=12, pady=12)
        self.nb.add(adv, text="Avancé")
        # Bloc dictionnaires YAML
        cfg = tk.LabelFrame(adv, text="Règles & dictionnaires (YAML)", padx=8, pady=8)
        cfg.pack(fill=tk.X, pady=6)
        tk.Label(cfg, text="Fichier YAML :").grid(row=0, column=0, sticky="w")
        tk.Entry(cfg, textvariable=self.cfg_path, width=60).grid(row=0, column=1, sticky="we", padx=6)
        tk.Button(cfg, text="Parcourir", command=self._cfg_browse).grid(row=0, column=2)
        tk.Button(cfg, text="Créer/Charger", command=self._load_cfg).grid(row=0, column=3, padx=4)
        tk.Button(cfg, text="Sauver", command=self._save_cfg).grid(row=0, column=4)
        tk.Button(cfg, text="Recharger", command=self._reload_cfg).grid(row=0, column=5, padx=4)
        tk.Button(cfg, text="Restaurer défauts", command=self._restore_defaults).grid(row=0, column=6)
        cfg.grid_columnconfigure(1, weight=1)
        ToolTip(cfg, "Les règles définissent ce qu’il faut masquer (blacklist), ce qu’il faut garder (whitelist) et les modèles personnalisés.")
        # Créateur de règle
        rc = tk.LabelFrame(adv, text="Créer rapidement une règle", padx=8, pady=8)
        rc.pack(fill=tk.X, pady=6)
        tk.Label(rc, text="Exemple (copiez/collez une ligne du PDF) :").grid(row=0, column=0, sticky="w")
        self.rule_example = tk.Entry(rc, width=80); self.rule_example.grid(row=0, column=1, columnspan=4, sticky="we", padx=6)
        tk.Label(rc, text="Type de modèle :").grid(row=1, column=0, sticky="e")
        self.rule_type = ttk.Combobox(rc, values=["Mot exact", "Forme proche", "Modèle avancé"], state="readonly"); self.rule_type.set("Mot exact")
        self.rule_type.grid(row=1, column=1, sticky="w")
        ToolTip(self.rule_type, "Mot exact : masque exactement ce que vous tapez.\nForme proche : tolère espaces/variantes.\nModèle avancé : expression régulière (pour experts).")
        tk.Label(rc, text="Remplacer par :").grid(row=1, column=2, sticky="e")
        self.rule_placeholder = tk.Entry(rc, width=18); self.rule_placeholder.insert(0, "[MASK]"); self.rule_placeholder.grid(row=1, column=3, sticky="w")
        tk.Label(rc, text="Où appliquer :").grid(row=1, column=4, sticky="e")
        self.rule_scope = ttk.Combobox(rc, values=["partout", "narratif", "tables_valeur", "entetes_pieds"], state="readonly"); self.rule_scope.set("partout"); self.rule_scope.grid(row=1, column=5, sticky="w")
        self.flag_ic = tk.BooleanVar(value=True); self.flag_bow = tk.BooleanVar(value=True)
        tk.Checkbutton(rc, text="Ignorer la casse (A=a)", variable=self.flag_ic).grid(row=2, column=1, sticky="w")
        tk.Checkbutton(rc, text="Respecter les mots entiers", variable=self.flag_bow).grid(row=2, column=2, sticky="w")
        tk.Button(rc, text="Prévisualiser", command=self._preview_rule).grid(row=2, column=4)
        tk.Button(rc, text="Enregistrer la règle", command=self._save_rule).grid(row=2, column=5)
    # ----- YAML helpers -----
    def _ensure_cfg_exists(self):
        p = Path(self.cfg_path.get())
        p.parent.mkdir(parents=True, exist_ok=True)
        if not p.exists():
            p.write_text(DEFAULTS_CFG_TEXT, encoding="utf-8")
    def _cfg_browse(self):
        d = filedialog.asksaveasfilename(defaultextension=".yml", filetypes=[("YAML","*.yml *.yaml"), ("Tous","*.*")])
        if d:
            self.cfg_path.set(d)
    def _load_cfg(self):
        if yaml is None:
            messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml).")
            return
        self._ensure_cfg_exists()
        try:
            with open(self.cfg_path.get(), "r", encoding="utf-8") as f:
                self.cfg_data = yaml.safe_load(f) or {}
            self._log(f"Règles chargées depuis : {self.cfg_path.get()}")
        except Exception as e:
            # Auto-fix : convertir pattern: "..." en bloc littéral
            try:
                raw = Path(self.cfg_path.get()).read_text(encoding="utf-8")
                fixed = re.sub(r"(^\s*pattern\s*:\s*)(\"[^\n]*\")", r"\1|-\n      \2", raw, flags=re.MULTILINE)
                if fixed != raw:
                    Path(self.cfg_path.get()).write_text(fixed, encoding="utf-8")
                    with open(self.cfg_path.get(), "r", encoding="utf-8") as f:
                        self.cfg_data = yaml.safe_load(f) or {}
                    self._log("Le fichier YAML contenait des guillemets problématiques. Correction automatique appliquée.")
                else:
                    raise
            except Exception as e2:
                messagebox.showerror("Fichier de règles invalide", f"Impossible de charger le YAML:\n{e}\n\nEssayez de restaurer les valeurs par défaut.")
    def _save_cfg(self):
        if yaml is None:
            messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml).")
            return
        try:
            with open(self.cfg_path.get(), "w", encoding="utf-8") as f:
                yaml.safe_dump(self.cfg_data or yaml.safe_load(DEFAULTS_CFG_TEXT), f, allow_unicode=True, sort_keys=False)
            self._log("Règles sauvegardées.")
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'écrire le fichier de règles: {e}")
    def _reload_cfg(self):
        self._load_cfg(); self._log("Règles rechargées.")
    def _restore_defaults(self):
        try:
            Path(self.cfg_path.get()).write_text(DEFAULTS_CFG_TEXT, encoding="utf-8")
            self._log("Règles restaurées aux valeurs par défaut.")
            self._load_cfg()
        except Exception as e:
            messagebox.showerror("Erreur", f"Impossible d'écrire le YAML par défaut: {e}")
    # ----- Règles rapides -----
    def _build_simple_regex(self, sample: str, bow: bool) -> str:
        s = sample.strip()
        s = re.sub(r"\s+", r"\\s+", re.escape(s))
        return rf"\b{s}\b" if bow else s
    def _preview_rule(self):
        sample = self.rule_example.get().strip()
        if not sample:
            messagebox.showinfo("Info", "Exemple vide."); return
        rtype = self.rule_type.get(); ic = self.flag_ic.get(); bow = self.flag_bow.get()
        placeholder = self.rule_placeholder.get().strip() or "[MASK]"
        if rtype == "Mot exact":
            pattern = self._build_simple_regex(sample, bow)
        elif rtype == "Forme proche":
            pattern = self._build_simple_regex(sample, bow)
        else:
            pattern = sample  # modèle avancé (regex)
        try:
            rx = re.compile(pattern, re.IGNORECASE if ic else 0)
        except Exception as e:
            messagebox.showerror("Modèle invalide", str(e)); return
        # Prévisualisation sur le premier PDF du dossier
        folder = Path(self.dir_var.get().strip())
        pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()]) if folder.is_dir() else []
        if not pdfs:
            messagebox.showinfo("Info", "Aucun PDF pour prévisualiser."); return
        try:
            pages_text, tables_lines = core.extract_text_two_passes(pdfs[0])  # type: ignore[attr-defined]
            text = "\n".join(pages_text) + "\n\n" + "\n".join("\n".join(r) for r in tables_lines)
            hits = len(rx.findall(text))
            self._log(f"Prévisualisation : {hits} occurrence(s) sur {pdfs[0].name}")
        except Exception as e:
            self._log(f"Prévisualisation indisponible: {e}")
    def _save_rule(self):
        if yaml is None:
            messagebox.showerror("PyYAML manquant", "Installez PyYAML (pip install pyyaml).")
            return
        sample = self.rule_example.get().strip()
        if not sample:
            messagebox.showinfo("Info", "Exemple vide."); return
        rtype = self.rule_type.get(); ic = self.flag_ic.get(); bow = self.flag_bow.get()
        placeholder = self.rule_placeholder.get().strip() or "[MASK]"
        scope = self.rule_scope.get()
        cfg = self.cfg_data or {}
        cfg.setdefault("blacklist", {})
        cfg.setdefault("regex_overrides", [])
        if rtype in ("Mot exact", "Forme proche"):
            # On utilise la blacklist simple
            if rtype == "Mot exact":
                lst = cfg["blacklist"].setdefault("force_mask_terms", [])
                if sample not in lst:
                    lst.append(sample)
            else:
                pattern = self._build_simple_regex(sample, bow)
                lst = cfg["blacklist"].setdefault("force_mask_regex", [])
                if pattern not in lst:
                    lst.append(pattern)
        else:
            # Modèle avancé → override avec placeholder explicite
            entry = {
                "name": f"custom_{len(cfg['regex_overrides'])+1}",
                "pattern": sample,
                "placeholder": placeholder,
                "flags": ["IGNORECASE"] if ic else [],
                "scope": scope,
            }
            cfg["regex_overrides"].append(entry)
        self.cfg_data = cfg
        self._save_cfg()
        self._log("Règle ajoutée. Cliquez sur Recharger pour l'appliquer.")
    # ----- Actions -----
    def _browse(self):
        d = filedialog.askdirectory()
        if d:
            self.dir_var.set(d)
    def _run(self):
        folder = Path(self.dir_var.get().strip())
        if not folder.is_dir():
            messagebox.showwarning("Dossier invalide", "Choisissez un dossier contenant des PDF.")
            return
        self.btn_run.config(state=tk.DISABLED)
        threading.Thread(target=self._worker, args=(folder,), daemon=True).start()
    def _worker(self, folder: Path):
        try:
            pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()])
            if not pdfs:
                self._log("Aucun PDF trouvé.")
                return
            outdir = folder / "pseudonymise"
            outdir.mkdir(exist_ok=True)
            ok = ko = 0
            global_counts: Dict[str,int] = {}
            for i, pdf in enumerate(pdfs, start=1):
                self.status_var.set(f"{i}/{len(pdfs)} — {pdf.name}")
                make_vec = (self.format_var.get() == "vector")
                make_ras = (self.format_var.get() == "raster")
                try:
                    outputs = core.process_pdf(
                        pdf_path=pdf,
                        out_dir=outdir,
                        make_vector_redaction=make_vec,
                        also_make_raster_burn=make_ras,
                        config_path=Path(self.cfg_path.get()),
                    )
                    self._log("✓ " + pdf.name)
                    for k, v in outputs.items():
                        self._log(f"  - {k}: {v}")
                    # Résumé par doc (compte des remplacements)
                    audit_path = Path(outputs.get("audit", ""))
                    counts = self._count_audit(audit_path)
                    if counts:
                        self._log("  ~ résumé : " + ", ".join(f"{k}={v}" for k, v in sorted(counts.items())))
                        for k,v in counts.items():
                            global_counts[k] = global_counts.get(k,0)+v
                    ok += 1
                except Exception as e:
                    self._log(f"✗ {pdf.name} → ERREUR: {e}")
                    ko += 1
            self.status_var.set(f"Terminé : {ok} OK, {ko} erreurs. Sortie: {outdir}")
            if ok:
                self._log("—")
                self._log("RÉSUMÉ DU LOT : " + ", ".join(f"{k}={v}" for k, v in sorted(global_counts.items())))
                self.btn_open_out.config(state=tk.NORMAL)
                self._last_outdir = outdir
        finally:
            self.btn_run.config(state=tk.NORMAL)
    def _count_audit(self, audit_path: Path) -> Dict[str,int]:
        d: Dict[str,int] = {}
        try:
            with open(audit_path, "r", encoding="utf-8") as f:
                for line in f:
                    try:
                        obj = json.loads(line)
                        k = obj.get("kind", "?")
                        d[k] = d.get(k,0)+1
                    except Exception:
                        pass
        except Exception:
            pass
        return d
    def _open_out(self):
        p = getattr(self, "_last_outdir", None)
        if p:
            open_folder(p)
    def _pump_logs(self):
        try:
            while True:
                msg = self.queue.get_nowait()
                self.txt.insert(tk.END, msg + "\n"); self.txt.see(tk.END)
        except queue.Empty:
            pass
        finally:
            self.root.after(60, self._pump_logs)
    def _log(self, msg: str):
        self.queue.put(msg)
    def _show_help(self):
        messagebox.showinfo(
            "Aide (2 minutes)",
            "1) Choisissez un dossier avec vos PDF.\n"
            "2) Choisissez le format du document final.\n"
            "   - PDF anonymisé (léger) : texte supprimé + boîtes noires (sélection possible).\n"
            "   - PDF image (très sûr) : chaque page en image, aucun texte résiduel.\n"
            "3) Cliquez sur Anonymiser.\n"
            "4) Ouvrez le dossier de résultats pour vérifier.\n"
            "5) Onglet Avancé : ajustez les règles si besoin (mots à garder, à masquer, modèles).",
        )
 # ---------- main ----------
 if __name__ == "__main__":
    root = tk.Tk()
    App(root)
    root.mainloop()
--- a/pseudonymisation_pipeline_robuste.py
+++ b/pseudonymisation_pipeline_robuste.py
@@ -0,0 +1,627 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 from __future__ import annotations
 import os, re, sys, json, queue, hashlib, warnings, threading, subprocess, unicodedata
 from dataclasses import dataclass, asdict
 from pathlib import Path
 from typing import List, Tuple, Optional, Dict
 from datetime import datetime, timedelta
 # GUI
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 # Core
 import pdfplumber
 import requests
 import spacy
 from spacy.util import load_model_from_path
 try:
    import yaml
 except Exception:
    yaml = None
 APP_TITLE = "Pseudonymisation (Robuste + Backbones)"
 MODEL_DIR_NAME = "fr_core_news_lg"
 # ----------- Utilitaires & Unicode -----------
 def resolve_base_dir() -> Path:
    return Path(getattr(sys, "_MEIPASS", Path(__file__).resolve().parent))
 def sha256(s: str) -> str:
    h = hashlib.sha256(); h.update(s.encode("utf-8", errors="ignore")); return h.hexdigest()
 def normalize_text(s: str) -> str:
    if not s: return ""
    s = unicodedata.normalize("NFKC", s)
    s = s.replace("ﬁ","fi").replace("ﬂ","fl")
    s = s.replace("“","\"").replace("”","\"").replace("’","'").replace("«","\"").replace("»","\"")
    s = s.replace("\u00A0"," ")
    s = re.sub(r"[\u0000-\u001f]", " ", s)
    s = re.sub(r"\s+", " ", s).strip()
    return s
 def find_model_dir(root: Path) -> Optional[Path]:
    if (root / "config.cfg").exists() and (root / "meta.json").exists():
        return root
    for p in root.rglob("config.cfg"):
        if (p.parent / "meta.json").exists():
            return p.parent
    return None
 # ----------- Règles & Whitelist -----------
 DEFAULT_WHITELIST = {
    "PMSI","T2A","GHM","GHS","DP","DR","DAS","RUM","UM","UF","CMA","CMD","CIM","CIM-10","CCAM","NGAP","NABM","ICD","ICD-10",
    "CHU","CH","CLCC","SSR","USI","USC","USLD","UHCD","SAU","UCA","HDJ","HAD","EHPAD","CMP","SMUR","SAMU","DIM",
    "IRM","TDM","TEP","RX","ETT","ETO","ECG","EEG","EMG","EFR","BHC",
    "NFS","CRP","VS","HB","HT","TSH","T3","T4","ASAT","ALAT","GGT","LDH","BNP","NTPROBNP","DFG","INR","PAO2","PACO2","SPO2","TA","FC","IMC","BMI",
    "IGS2","SAPS2","APACHE","SOFA","NEWS","HAS","ARS",
    "FINESS","OGC",
 }
 EMAIL_RE = re.compile(r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b")
 PHONE_RE = re.compile(r"(?:\+33|0)[1-9](?:[ .-]?\d{2}){4}\b")
 IPP_RE   = re.compile(r"\bIPP[: ]?\d{6,10}\b", re.IGNORECASE)
 IBAN_RE  = re.compile(r"\b[A-Z]{2}\d{2}[A-Z0-9]{11,30}\b")
 NIR_RAW_RE = re.compile(r"\b(\d{13})(\d{2})\b")
 FINESS_LINE_RE = re.compile(r"\bFINESS\s*:\s*\d{9}\b", re.IGNORECASE)
 OGC_LINE_RE = re.compile(r"N[°º]?\s*OGC\s*:\s*\d+", re.IGNORECASE)
 ETAB_LINE_RE = re.compile(r"Etablissement\s*:\s*.*", re.IGNORECASE)
 PRATICIEN_LINE_RE = re.compile(r"Nom du praticien[- ]conseil\s*:\s*.*", re.IGNORECASE)
 DIM_LINE_RE = re.compile(r"Nom du m[ée]decin du DIM\s*:\s*.*", re.IGNORECASE)
 DR_MAJ_RE = re.compile(r"Dr\s+[A-ZÀ-Ü' \-]{2,}")
 NOMS_MAJ_RE = re.compile(r"(?<![A-Z])(?:[A-ZÀ-Ü’\-]{2,}\s+){1,}[A-ZÀ-Ü’\-]{2,}")
 DATE_PATTERNS = [
    (re.compile(r"\b(\d{2})/(\d{2})/(\d{4})\b"), "%d/%m/%Y"),
    (re.compile(r"\b(\d{4})-(\d{2})-(\d{2})\b"), "%Y-%m-%d"),
 ]
 DEFAULT_KEEP_FIELDS = ["Etablissement", "FINESS", "N° OGC", "Dates de séjour", "Service", "RUM", "UM"]
 def nir_is_valid(nir13: str, cle2: str) -> bool:
    try:
        n = int(nir13); k = int(cle2)
        return (97 - (n % 97)) == k
    except Exception:
        return False
 # ----------- Modèle avancé HF (cascade) -----------
 MODEL_PRESETS = {
    "CamemBERT NER (Jean-Baptiste)": "Jean-Baptiste/camembert-ner",   # NER prêt à l'emploi
    "CamemBERT-bio (base LM)":       "almanach/camembert-base-bio",    # base LM, pas NER -> pour tests / remplacez par un NER biomédical si vous en avez un
    "DrBERT (base LM)":              "Dr-BERT/DrBERT-7GB",             # base LM, pas NER -> idem
 }
 class AdvancedHF:
    def __init__(self, model_id: str, cache_dir: Path, status_cb=None):
        self.model_id = model_id
        self.cache_dir = cache_dir
        self.pipe = None
        self.status_cb = status_cb or (lambda msg: None)
    def load(self) -> Tuple[bool, str]:
        try:
            os.environ["HF_HOME"] = str(self.cache_dir)
            self.status_cb("Initialisation Transformers…")
            from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline, AutoModel
            # sentencepiece requis pour camembert/drbert
            try:
                import sentencepiece  # noqa: F401
            except Exception:
                return False, "Dépendance 'sentencepiece' manquante. Installez-la puis rebuild."
            self.status_cb("Chargement tokenizer…")
            tok = AutoTokenizer.from_pretrained(self.model_id)
            self.status_cb("Chargement modèle (peut prendre 1–2 min la 1ère fois)…")
            mdl = None
            try:
                mdl = AutoModelForTokenClassification.from_pretrained(self.model_id)
                head_ok = True
            except Exception as e:
                # si ce n'est pas un modèle NER, on télécharge au moins la base pour le cache
                self.status_cb("Le modèle semble être un 'base LM'. Téléchargement de la base pour cache…")
                try:
                    AutoModel.from_pretrained(self.model_id)
                except Exception:
                    pass
                return False, ("Le modèle sélectionné ne semble pas être un modèle NER (token-classification). "
                               "Choisissez un ID fine-tuné pour le NER (ex. 'Jean-Baptiste/camembert-ner').")
            try:
                import torch
                torch.set_num_threads(1)
            except Exception:
                pass
            self.pipe = pipeline("token-classification", model=mdl, tokenizer=tok,
                                 aggregation_strategy="simple", device=-1)
            return True, f"Modèle avancé prêt: {self.model_id}"
        except Exception as e:
            msg = str(e)
            if "sentencepiece" in msg.lower():
                return False, "Échec: 'sentencepiece' requis."
            return False, f"Échec modèle avancé: {e}"
    def apply(self, text: str) -> Tuple[str, List[Tuple[int,int,str,str]]]:
        if not self.pipe: return text, []
        res = self.pipe(text)
        spans=[]
        for r in res:
            grp = r.get("entity_group") or r.get("entity") or ""
            start, end = int(r["start"]), int(r["end"])
            if grp.startswith("PER"):
                rep = "[NOM]"
            elif grp.startswith("ORG"):
                rep = "[ETABLISSEMENT]"
            elif grp in ("LOC","GPE") or grp.startswith("LOC"):
                rep = "[VILLE]"
            else:
                continue
            spans.append((start,end,rep,text[start:end]))
        if not spans: return text, []
        spans.sort(key=lambda x:x[0])
        out=[]; last=0; audit=[]
        for s,e,rep,raw in spans:
            if s<last: continue
            out.append(text[last:s]); out.append(rep); last=e
            audit.append((s,e,rep,raw))
        out.append(text[last:])
        return "".join(out), audit
 # ----------- Moteur Robuste -----------
@dataclass
 class Replacement:
    kind: str
    page: Optional[int]
    text_hash: str
    replacement: str
 class RobustEngine:
    def __init__(self, config: Dict):
        self.nlp = None
        self.use_ner = False
        self.date_policy = config.get("policy",{}).get("dates","keep")
        self.date_shift_days = int(config.get("policy",{}).get("shift_days",0))
        self.whitelist = set(config.get("whitelist",{}).get("tokens", list(DEFAULT_WHITELIST)))
        self.keep_fields = config.get("tables",{}).get("keep_fields", list(DEFAULT_KEEP_FIELDS))
        self.apply_ner_on_narr = True
        # HF
        adv = config.get("advanced", {})
        self.adv_model_id = adv.get("hf_model_id", list(MODEL_PRESETS.values())[0])
        self.adv_cache_dir = Path(os.environ.get("LOCALAPPDATA", resolve_base_dir())) / "Pseudonymiseur" / "models" / "hf_cache"
        self.hf: Optional[AdvancedHF] = None
    # spaCy
    def try_load_spacy(self, custom_dir: Optional[Path]=None) -> Tuple[bool,str]:
        candidates = []
        if custom_dir: candidates.append(custom_dir)
        candidates.append(resolve_base_dir()/ "models" / MODEL_DIR_NAME)
        for c in candidates:
            if c.exists():
                real = find_model_dir(c)
                if real:
                    try:
                        self.nlp = load_model_from_path(real); self.use_ner=True
                        return True, f"Local: {real}"
                    except Exception as e:
                        warnings.warn(f"Echec load local {real}: {e}")
        try:
            self.nlp = spacy.load(MODEL_DIR_NAME); self.use_ner=True
            return True, f"spacy.load('{MODEL_DIR_NAME}')"
        except Exception as e:
            self.nlp=None; self.use_ner=False
            return False, f"Indisponible: {e}"
    # Dates
    def transform_dates(self, text: str) -> str:
        if self.date_policy == "keep": return text
        def as_mo_year(m, fmt):
            try: return datetime.strptime(m.group(0), fmt).strftime("%m/%Y")
            except: return m.group(0)
        def shift(m, fmt):
            try:
                dt = datetime.strptime(m.group(0), fmt) + timedelta(days=self.date_shift_days)
                return dt.strftime(fmt)
            except: return m.group(0)
        for rx,fmt in DATE_PATTERNS:
            if self.date_policy=="month_year": text = rx.sub(lambda m: as_mo_year(m,fmt), text)
            elif self.date_policy=="shift":    text = rx.sub(lambda m: shift(m,fmt), text)
        return text
    # Regex ciblées
    def regex_pass(self, text: str, page: Optional[int]) -> Tuple[str, List[Replacement]]:
        repls: List[Replacement] = []
        def add(kind, val, placeholder): repls.append(Replacement(kind, page, sha256(val)[:8], placeholder))
        def sub_line(rx, placeholder, s):
            return rx.sub(lambda m: (add("RULE", m.group(0), placeholder) or placeholder), s)
        text = sub_line(ETAB_LINE_RE, "[ETABLISSEMENT]", text)
        text = sub_line(FINESS_LINE_RE, "[FINESS]", text)
        text = sub_line(OGC_LINE_RE, "[OGC]", text)
        text = sub_line(PRATICIEN_LINE_RE, "[NOM_MEDECIN]", text)
        text = sub_line(DIM_LINE_RE, "[NOM_MEDECIN]", text)
        text = sub_line(DR_MAJ_RE, "[NOM_MEDECIN]", text)
        for rx, ph, kind in [
            (EMAIL_RE, "[EMAIL]", "EMAIL"),
            (PHONE_RE, "[TEL]", "TEL"),
            (IPP_RE,   "[IPP]", "IPP"),
            (IBAN_RE,  "[IBAN]","IBAN"),
        ]:
            text = rx.sub(lambda m: (repls.append(Replacement(kind,page,sha256(m.group(0))[:8],ph)) or ph), text)
        def _nir(m):
            nir13, cle2 = m.group(1), m.group(2)
            if nir_is_valid(nir13, cle2):
                repls.append(Replacement("NIR", page, sha256(m.group(0))[:8], "[NIR]")); return "[NIR]"
            return m.group(0)
        text = NIR_RAW_RE.sub(_nir, text)
        def repl_noms_maj(m):
            cand = m.group(0)
            tokens = re.findall(r"[A-ZÀ-Ü’\-]{2,}", cand)
            if all(t in self.whitelist for t in tokens): return cand
            repls.append(Replacement("NOM", page, sha256(cand)[:8], "[NOM]")); return "[NOM]"
        text = NOMS_MAJ_RE.sub(repl_noms_maj, text)
        return text, repls
    # NER spaCy
    def ner_pass_spacy(self, text: str, page: Optional[int]) -> Tuple[str, List[Replacement]]:
        if not self.use_ner or not self.nlp: return text, []
        doc = self.nlp(text)
        spans=[]
        for ent in doc.ents:
            lab = ent.label_
            if lab in ("DATE","TIME"): continue
            if lab=="PERSON": rep="[NOM]"
            elif lab=="ORG": rep="[ETABLISSEMENT]"
            elif lab in ("GPE","LOC","FAC"): rep="[VILLE]"
            else: continue
            spans.append((ent.start_char, ent.end_char, rep, ent.text))
        if not spans: return text, []
        spans.sort(key=lambda x:x[0])
        out=[]; last=0; repls=[]
        for s,e,rep,raw in spans:
            if s<last: continue
            out.append(text[last:s]); out.append(rep); last=e
            repls.append(Replacement("NER", page, sha256(raw)[:8], rep))
        out.append(text[last:])
        return "".join(out), repls
    # HF
    def ensure_hf(self, status_cb=None) -> Tuple[bool,str]:
        if self.hf: return True, "Déjà prêt."
        self.hf = AdvancedHF(self.adv_model_id, self.adv_cache_dir, status_cb=status_cb)
        return self.hf.load()
    def ner_pass_hf(self, text: str, page: Optional[int]) -> Tuple[str, List[Replacement]]:
        if not self.hf: return text, []
        t2, aud = self.hf.apply(text)
        repls=[Replacement("HF", page, sha256(raw)[:8], rep) for (_s,_e,rep,raw) in aud]
        return t2, repls
    # Filet sécurité
    def safety_rescan(self, text: str) -> str:
        for rx,ph in [(FINESS_LINE_RE,"[FINESS]"),(OGC_LINE_RE,"[OGC]"),(ETAB_LINE_RE,"[ETABLISSEMENT]"),
                      (PRATICIEN_LINE_RE,"[NOM_MEDECIN]"),(DIM_LINE_RE,"[NOM_MEDECIN]"),(DR_MAJ_RE,"[NOM_MEDECIN]")]:
            text = rx.sub(ph, text)
        text = EMAIL_RE.sub("[EMAIL]", text)
        text = PHONE_RE.sub("[TEL]", text)
        text = IPP_RE.sub("[IPP]", text)
        text = IBAN_RE.sub("[IBAN]", text)
        def _nir(m): return "[NIR]" if nir_is_valid(m.group(1), m.group(2)) else m.group(0)
        text = NIR_RAW_RE.sub(_nir, text)
        def _maj(m):
            cand=m.group(0); toks=re.findall(r"[A-ZÀ-Ü’\-]{2,}", cand)
            return cand if all(t in self.whitelist for t in toks) else "[NOM]"
        return NOMS_MAJ_RE.sub(_maj, text)
 # ----------- PDF Processor -----------
 class PDFProcessor:
    def __init__(self, engine: RobustEngine, options: Dict):
        self.engine=engine; self.options=options
    def process_pdf(self, pdf_path: Path) -> Tuple[str, List[Replacement], bool]:
        chunks=[]; audit=[]; scanned_like=True
        with pdfplumber.open(str(pdf_path)) as pdf:
            for p_idx, page in enumerate(pdf.pages, start=1):
                page_chunks=[]
                # Tables
                try: tables = page.extract_tables()
                except Exception: tables=[]
                if tables:
                    scanned_like=False
                    lines_all=[]
                    for t in tables:
                        rows=[[normalize_text(c or "") for c in row] for row in t]
                        text_lines, reps = self._handle_table(rows, p_idx)
                        audit += reps; lines_all += text_lines
                    if self.options.get("keep_tables", True) and lines_all:
                        page_chunks.append("[TABLES]\n" + "\n".join(lines_all) + "\n[/TABLES]")
                # Narratif
                try:
                    txt = page.extract_text(x_tolerance=1.5, y_tolerance=3.0) or ""
                except Exception:
                    txt=""
                txt=normalize_text(txt)
                if txt.strip():
                    scanned_like=False
                    txt = self.engine.transform_dates(txt)
                    t1, r1 = self.engine.regex_pass(txt, p_idx)
                    if self.options.get("apply_ner_on_narrative", True) and self.engine.use_ner:
                        t2, r2 = self.engine.ner_pass_spacy(t1, p_idx)
                    else:
                        t2, r2 = t1, []
                    if self.options.get("aggressive_hf", False) and self.engine.hf:
                        t3, r3 = self.engine.ner_pass_hf(t2, p_idx)
                    else:
                        t3, r3 = t2, []
                    audit += (r1+r2+r3)
                    page_chunks.append(t3)
                if page_chunks:
                    chunks.append(f"\n===== PAGE {p_idx} =====\n" + "\n\n".join(page_chunks))
        final_text=("\n\n").join(chunks).strip()
        if self.options.get("safety_rescan", True):
            final_text=self.engine.safety_rescan(final_text)
        return final_text, audit, scanned_like
    def _handle_table(self, rows: List[List[str]], page: int) -> Tuple[List[str], List[Replacement]]:
        out_lines=[]; repls=[]
        for row in rows:
            if not any(row): continue
            line = "; ".join([c for c in row if c]); 
            if not line: continue
            t, rr = self.engine.regex_pass(self.engine.transform_dates(line), page); repls += rr
            kept=False
            for k in self.engine.keep_fields:
                if re.search(rf"(?i)\b{k}\b", t):
                    out_lines.append(t); kept=True; break
            if not kept:
                pass
        return out_lines, repls
 # ----------- GUI -----------
 def load_config() -> Dict:
    cfg = {
        "whitelist": {"tokens": list(DEFAULT_WHITELIST)},
        "tables": {"keep_fields": list(DEFAULT_KEEP_FIELDS)},
        "policy": {"dates":"keep", "shift_days":0},
        "advanced": {"hf_model_id": list(MODEL_PRESETS.values())[0]},
    }
    cfg_path = resolve_base_dir() / "config.yaml"
    try:
        if yaml and cfg_path.exists():
            with cfg_path.open("r", encoding="utf-8") as f:
                user_cfg = yaml.safe_load(f) or {}
            for k,v in user_cfg.items():
                if isinstance(v, dict) and k in cfg: cfg[k].update(v)
                else: cfg[k]=v
    except Exception:
        pass
    return cfg
 class App:
    def __init__(self, root: tk.Tk):
        self.root=root; self.root.title(APP_TITLE); self.root.geometry("1100x780")
        self.dir_var = tk.StringVar(); self.status_var = tk.StringVar(value="Prêt.")
        self.model_status_var = tk.StringVar(value="Vérification du modèle spaCy…")
        self.hf_status_var = tk.StringVar(value="Modèle avancé HF : inactif")
        self.regex_only = tk.BooleanVar(value=False)
        self.keep_tables = tk.BooleanVar(value=True)
        self.apply_ner_on_narr = tk.BooleanVar(value=True)
        self.safety_rescan = tk.BooleanVar(value=True)
        self.aggressive_hf = tk.BooleanVar(value=False)
        self.date_policy = tk.StringVar(value="keep")
        self.date_shift_days = tk.StringVar(value="0")
        self.hf_model_label = tk.StringVar(value=list(MODEL_PRESETS.keys())[0])
        self.hf_model_id = tk.StringVar(value=list(MODEL_PRESETS.values())[0])
        self.queue: "queue.Queue[str]" = queue.Queue()
        self.config = load_config()
        self.engine = RobustEngine(self.config)
        self.engine.adv_cache_dir.mkdir(parents=True, exist_ok=True)
        self._build_ui()
        self._pump_logs()
        self.root.after(250, self._ensure_spacy)
    def _build_ui(self):
        top = tk.Frame(self.root, padx=10, pady=10); top.pack(fill=tk.BOTH, expand=True)
        # Ligne dossier
        row1 = tk.Frame(top); row1.pack(fill=tk.X)
        tk.Label(row1, text="Dossier PDF :").pack(side=tk.LEFT)
        tk.Entry(row1, textvariable=self.dir_var).pack(side=tk.LEFT, fill=tk.X, expand=True, padx=6)
        tk.Button(row1, text="Parcourir…", command=self._browse).pack(side=tk.LEFT, padx=3)
        self.btn_run = tk.Button(row1, text="Lancer", command=self._run, state=tk.DISABLED)
        self.btn_run.pack(side=tk.LEFT, padx=3)
        # Carte spaCy
        card = tk.LabelFrame(top, text="Modèle spaCy (FR)", padx=8, pady=8); card.pack(fill=tk.X, pady=6)
        tk.Label(card, textvariable=self.model_status_var, anchor="w").pack(fill=tk.X)
        pfrm = tk.Frame(card); pfrm.pack(fill=tk.X, pady=(6,0))
        self.pbar = ttk.Progressbar(pfrm, orient="horizontal", mode="indeterminate", length=300); self.pbar.pack(side=tk.LEFT)
        tk.Button(card, text="Télécharger", command=self._download_spacy).pack(side=tk.LEFT, padx=6)
        tk.Button(card, text="Choisir un dossier…", command=self._choose_model_dir).pack(side=tk.LEFT)
        tk.Checkbutton(card, text="Mode regex seul", variable=self.regex_only, command=self._toggle_regex).pack(side=tk.RIGHT)
        # Carte HF
        card2 = tk.LabelFrame(top, text="Modèle avancé (Hugging Face)", padx=8, pady=8); card2.pack(fill=tk.X, pady=6)
        rowhf = tk.Frame(card2); rowhf.pack(fill=tk.X)
        tk.Label(rowhf, text="Préréglage :").pack(side=tk.LEFT)
        self.cmb = ttk.Combobox(rowhf, values=list(MODEL_PRESETS.keys()), textvariable=self.hf_model_label, state="readonly", width=35)
        self.cmb.pack(side=tk.LEFT, padx=6)
        self.cmb.bind("<<ComboboxSelected>>", self._preset_changed)
        tk.Label(rowhf, text="Model ID :").pack(side=tk.LEFT)
        tk.Entry(rowhf, textvariable=self.hf_model_id, width=44).pack(side=tk.LEFT, padx=6)
        tk.Button(rowhf, text="Charger modèle avancé", command=self._load_hf).pack(side=tk.LEFT)
        tk.Checkbutton(card2, text="Re-scanner agressif (ajoute le modèle avancé au narratif)", variable=self.aggressive_hf).pack(side=tk.LEFT, padx=10)
        tk.Label(card2, textvariable=self.hf_status_var, anchor="w").pack(fill=tk.X, pady=(6,0))
        # Options
        opt = tk.LabelFrame(top, text="Options", padx=8, pady=8); opt.pack(fill=tk.X, pady=6)
        tk.Checkbutton(opt, text="Garder tables utiles (réduit)", variable=self.keep_tables).pack(side=tk.LEFT, padx=6)
        tk.Checkbutton(opt, text="Appliquer NER (spaCy) sur narratif", variable=self.apply_ner_on_narr).pack(side=tk.LEFT, padx=6)
        tk.Checkbutton(opt, text="Re-scanner (sécurité) après traitement", variable=self.safety_rescan).pack(side=tk.LEFT, padx=6)
        pol = tk.LabelFrame(top, text="Politique Dates", padx=8, pady=8); pol.pack(fill=tk.X, pady=6)
        tk.Label(pol, text="Dates :").pack(side=tk.LEFT)
        ttk.Combobox(pol, textvariable=self.date_policy, values=["keep","month_year","shift"], width=12, state="readonly").pack(side=tk.LEFT, padx=6)
        tk.Label(pol, text="Décalage (+/- jours) :").pack(side=tk.LEFT)
        tk.Entry(pol, textvariable=self.date_shift_days, width=6).pack(side=tk.LEFT, padx=6)
        tk.Label(top, text="Journal :").pack(anchor="w")
        self.txt = tk.Text(top, height=18); self.txt.pack(fill=tk.BOTH, expand=True, pady=(2,0))
        tk.Label(top, textvariable=self.status_var, anchor="w").pack(fill=tk.X, pady=(4,0))
    # Helpers
    def _pbar_mode(self, mode:str):
        self.pbar.config(mode=mode)
        if mode=="indeterminate": self.pbar.start(60)
        else: self.pbar.stop(); self.pbar["value"]=0
    def log(self, msg:str):
        self.queue.put(msg)
    def _pump_logs(self):
        try:
            while True:
                msg = self.queue.get_nowait()
                self.txt.insert(tk.END, msg + "\n"); self.txt.see(tk.END)
        except queue.Empty:
            pass
        finally:
            self.root.after(60, self._pump_logs)
    # spaCy
    def _ensure_spacy(self):
        self._pbar_mode("indeterminate")
        ok,msg = self.engine.try_load_spacy(resolve_base_dir()/ "models" / MODEL_DIR_NAME)
        if ok:
            self.model_status_var.set(f"Modèle prêt. {msg}")
            self.btn_run.config(state=tk.NORMAL)
        else:
            self.model_status_var.set(f"Modèle indisponible : {msg} — utilisez 'Télécharger' ou 'Mode regex seul'.")
            if not self.regex_only.get(): self.btn_run.config(state=tk.DISABLED)
        self._pbar_mode("determinate")
    def _download_spacy(self):
        self._pbar_mode("indeterminate"); self.model_status_var.set("Téléchargement spaCy en cours…")
        def work():
            try:
                subprocess.check_call([sys.executable, "-m", "spacy", "download", MODEL_DIR_NAME])
                ok,msg = self.engine.try_load_spacy(resolve_base_dir()/ "models" / MODEL_DIR_NAME)
                if ok:
                    self.model_status_var.set(f"Modèle prêt. {msg}"); self.btn_run.config(state=tk.NORMAL)
                else:
                    self.model_status_var.set("Échec validation modèle. Essayez 'Choisir un dossier…' ou 'Mode regex seul'.")
                    if not self.regex_only.get(): self.btn_run.config(state=tk.DISABLED)
            except Exception as e:
                self.model_status_var.set(f"Erreur téléchargement spaCy : {e}")
                if not self.regex_only.get(): self.btn_run.config(state=tk.DISABLED)
            finally:
                self._pbar_mode("determinate")
        threading.Thread(target=work, daemon=True).start()
    def _choose_model_dir(self):
        d = filedialog.askdirectory(title="Choisir le dossier du modèle spaCy")
        if d:
            ok,msg = self.engine.try_load_spacy(Path(d))
            if ok: self.model_status_var.set(f"Modèle prêt. {msg}"); self.btn_run.config(state=tk.NORMAL)
            else:  self.model_status_var.set("Échec chargement du modèle."); 
            if not self.regex_only.get() and not ok: self.btn_run.config(state=tk.DISABLED)
    def _toggle_regex(self):
        if self.regex_only.get():
            self.engine.use_ner=False; self.apply_ner_on_narr.set(False); self.btn_run.config(state=tk.NORMAL)
            self.model_status_var.set("Mode regex seul : précision NER réduite.")
        else:
            self._ensure_spacy()
    # HF
    def _preset_changed(self, _evt=None):
        label = self.hf_model_label.get()
        self.hf_model_id.set(MODEL_PRESETS.get(label, list(MODEL_PRESETS.values())[0]))
    def _load_hf(self):
        mid = self.hf_model_id.get().strip()
        self.hf_status_var.set(f"Chargement du modèle avancé : {mid} …")
        self._pbar_mode("indeterminate")
        def work():
            try:
                self.engine.adv_model_id = mid
                ok,msg = self.engine.ensure_hf(status_cb=lambda m: self.hf_status_var.set(m))
                self.hf_status_var.set(msg)
            finally:
                self._pbar_mode("determinate")
        threading.Thread(target=work, daemon=True).start()
    # Run
    def _browse(self):
        d = filedialog.askdirectory()
        if d: self.dir_var.set(d)
    def _run(self):
        folder = Path(self.dir_var.get().strip())
        if not folder.is_dir():
            messagebox.showwarning("Dossier invalide","Choisissez un dossier contenant des PDF.")
            return
        self.engine.use_ner = (not self.regex_only.get()) and (self.engine.nlp is not None) and self.apply_ner_on_narr.get()
        self.engine.date_policy = self.date_policy.get()
        try: self.engine.date_shift_days = int(self.date_shift_days.get() or "0")
        except: self.engine.date_shift_days = 0
        opts = dict(
            keep_tables = self.keep_tables.get(),
            apply_ner_on_narrative = self.apply_ner_on_narr.get() and self.engine.use_ner,
            safety_rescan = self.safety_rescan.get(),
            aggressive_hf = self.aggressive_hf.get() and (self.engine.hf is not None),
        )
        self.btn_run.config(state=tk.DISABLED)
        threading.Thread(target=self._worker, args=(folder,opts), daemon=True).start()
    def _worker(self, folder: Path, options: Dict):
        try:
            pdfs = sorted([p for p in folder.glob("*.pdf") if p.is_file()])
            if not pdfs: self.log("Aucun PDF trouvé."); return
            outdir = folder / "pseudonymise"; outdir.mkdir(exist_ok=True)
            ok=ko=0
            for i,pdf in enumerate(pdfs, start=1):
                self.status_var.set(f"{i}/{len(pdfs)} — {pdf.name}")
                try:
                    proc = PDFProcessor(self.engine, options)
                    text, audit, scanned = proc.process_pdf(pdf)
                    (outdir / f"{pdf.stem}.pseudonymise.txt").write_text(text, encoding="utf-8")
                    with (outdir / f"{pdf.stem}.pseudonymise.jsonl").open("w", encoding="utf-8") as f:
                        for rep in audit: f.write(json.dumps(asdict(rep), ensure_ascii=False) + "\n")
                    with (outdir / f"{pdf.stem}.log.txt").open("w", encoding="utf-8") as f:
                        f.write(f"Fichier: {pdf.name}\nScanneSuspect: {scanned}\nRemplacements: {len(audit)}\n")
                    self.log(f"✓ {pdf.name}"); ok+=1
                except Exception as e:
                    self.log(f"✗ {pdf.name} → ERREUR: {e}"); ko+=1
            self.status_var.set(f"Terminé : {ok} OK, {ko} erreurs. Sortie: {outdir}")
        finally:
            self.btn_run.config(state=tk.NORMAL)
 # ----------- main -----------
 def main():
    root = tk.Tk()
    App(root)
    root.mainloop()
 if __name__ == "__main__":
    main()
--- a/readme.md
+++ b/readme.md
@@ -0,0 +1,7 @@
 placer tout les fichiers dans un répertoire.
 faire un chmod 777 install.sh pour lui donner les droits d'execution
 lancer ./install.sh pour lancer l'installation complete
 L'installation peut prendre du temps, elle charge deux modele IA nlp.
 Elle crée un environement virtuel python.
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,35 @@
 # --- NER ONNX (CPU) ---
 onnxruntime>=1.18.0
 optimum[onnxruntime]>=2.0.0
 transformers>=4.42.0
 tokenizers>=0.19.0
 sentencepiece>=0.2.0,<0.3
 onnx>=1.16.0
 # --- Core PDF & utilitaires ---
 pymupdf==1.24.9
 pdfplumber==0.11.5
 pdfminer.six==20231228
 Pillow==10.2.0
 PyYAML==6.0.2
 # (optionnel – uniquement si tu utilises la voie PyTorch ailleurs)
 # torch==2.3.1
 # huggingface_hub==0.23.4
 # (optionnel – OCR pour PDF scannés, nécessite torch)
 # python-doctr[torch]>=0.9.0
 # (optionnel – NER clinique EDS-Pseudo AP-HP, activer manuellement)
 # edsnlp[ml]>=0.12.0
 # (optionnel – thème système natif pour la GUI v5)
 # sv_ttk>=2.6
 # (optionnel – compilation en .exe natif via Nuitka)
 # nuitka
 # orderedset
 # zstandard
 # (optionnel – si tu gardes spaCy dans d'autres chemins)
 # spacy==3.7.4
--- a/setup_env_and_build.bat
+++ b/setup_env_and_build.bat
@@ -0,0 +1,216 @@
@echo off
 setlocal EnableExtensions EnableDelayedExpansion
 REM ======== FENETRE PERSISTANTE ========
 if /I not "%~1"=="/keep" (
  start "" cmd /k "%~f0" /keep
  goto :eof
 )
 title Setup & Build Pseudonymiseur (Robuste) - PERSISTANT
 REM ======== CONFIG ========
 set "PY=py -3.11"
 set "VENV=.venv"
 set "ENTRY=pseudonymisation_pipeline_robuste.py"
 set "EXENAME=PseudonymiseurMedical"
 set "MODEL_DIR=models\fr_core_news_lg"
 set "LOG=build_log.txt"
 set "FR_WHEEL_URL=https://github.com/explosion/spacy-models/releases/download/fr_core_news_lg-3.7.0/fr_core_news_lg-3.7.0-py3-none-any.whl"
 set "SPM_MISSING=1"
 REM ======== MENAGE PRECO ========
 echo .
 echo [CLEAN] Nettoyage de l'environnement...
 if exist "Build" del /f /q "Build" >nul 2>&1
 if exist "BUILD" del /f /q "BUILD" >nul 2>&1
 if exist ".\build" rmdir /s /q ".\build" >nul 2>&1
 if exist ".\dist" rmdir /s /q ".\dist" >nul 2>&1
 if exist ".\out"  rmdir /s /q ".\out"  >nul 2>&1
 del /f /q *.spec *.pyc 2>nul
 for /d %%D in (__pycache__ .pytest_cache .mypy_cache) do if exist "%%D" rmdir /s /q "%%D" 2>nul
 echo [CLEAN] OK
 echo.
 echo [0] Verif Python 3.11 x64
 %PY% -c "import sys,platform;assert sys.version_info[:2]==(3,11);print(sys.version);print(platform.architecture())"
 if errorlevel 1 (
  echo [ERREUR] Python 3.11 x64 requis.
  goto MENU
 )
 echo.
 echo [1] Environnement virtuel
 if not exist "%VENV%\Scripts\python.exe" %PY% -m venv "%VENV%"
 if errorlevel 1 (
  echo [ERREUR] Creation venv impossible.
  goto MENU
 )
 call "%VENV%\Scripts\activate"
 if errorlevel 1 (
  echo [ERREUR] Activation venv impossible.
  goto MENU
 )
 echo.
 echo [2] Installation des dependances (voir %LOG%)
 python -m pip install -U pip wheel > "%LOG%" 2>&1
 if errorlevel 1 (
  echo [ERREUR] Upgrade pip/wheel a echoue. Voir %LOG%.
  goto VIEW_LOG
 )
 pip install -r requirements.txt >> "%LOG%" 2>&1
 if errorlevel 1 (
  echo [ERREUR] Installation requirements a echoue. Voir %LOG%.
  goto VIEW_LOG
 )
 echo.
 echo [2a] sentencepiece (necessaire pour CamemBERT/DrBERT)
 pip install --only-binary=:all: sentencepiece==0.1.99 >> "%LOG%" 2>&1
 if not errorlevel 1 set "SPM_MISSING=0"
 echo.
 echo [2b] Test imports (core)
 python -c "import pdfplumber,spacy,requests,transformers,torch,tokenizers,huggingface_hub,yaml,PyInstaller,sys,importlib.util as u; print('Core imports OK. sentencepiece=', bool(u.find_spec('sentencepiece')))"
 if errorlevel 1 (
  echo [ERREUR] Echec imports Python de base. Voir %LOG%.
  goto VIEW_LOG
 )
 echo.
 echo [3] Modele spaCy fr_core_news_lg
 if exist "%MODEL_DIR%\config.cfg" (
  echo [OK] Modele local detecte: %MODEL_DIR%
 ) else (
  echo [INFO] Tentative A: python -m spacy download fr_core_news_lg
  python -m spacy download fr_core_news_lg >> "%LOG%" 2>&1
  if errorlevel 1 (
    echo [INFO] Tentative B: pip install wheel officiel
    pip install "%FR_WHEEL_URL%" >> "%LOG%" 2>&1
    if errorlevel 1 (
      echo [WARN] Echec installation du modele spaCy. Vous pourrez le telecharger via l'UI.
    ) else (
      echo [OK] Modele installe via wheel.
    )
  ) else (
    echo [OK] Modele telecharge via spacy.
  )
 )
 echo.
 echo [3bis] Pre-cache HuggingFace (accelere le 1er usage)
 if "%SPM_MISSING%"=="0" (
  set "HF_CACHE=%LOCALAPPDATA%\Pseudonymiseur\models\hf_cache"
  set "HF_HOME=%HF_CACHE%"
  echo    Cache: %HF_CACHE%
  set "HF_PRECACHE=%TEMP%\hf_precache.py"
  > "%HF_PRECACHE%" echo import os
  >>"%HF_PRECACHE%" echo os.environ['HF_HOME']=r'%HF_CACHE%'
  >>"%HF_PRECACHE%" echo from transformers import AutoTokenizer, AutoModelForTokenClassification, AutoModel
  >>"%HF_PRECACHE%" echo # Tokenizers
  >>"%HF_PRECACHE%" echo AutoTokenizer.from_pretrained('Jean-Baptiste/camembert-ner')
  >>"%HF_PRECACHE%" echo AutoTokenizer.from_pretrained('almanach/camembert-base-bio')
  >>"%HF_PRECACHE%" echo AutoTokenizer.from_pretrained('Dr-BERT/DrBERT-7GB')
  >>"%HF_PRECACHE%" echo # Models
  >>"%HF_PRECACHE%" echo AutoModelForTokenClassification.from_pretrained('Jean-Baptiste/camembert-ner')
  >>"%HF_PRECACHE%" echo AutoModel.from_pretrained('almanach/camembert-base-bio')
  >>"%HF_PRECACHE%" echo AutoModel.from_pretrained('Dr-BERT/DrBERT-7GB')
  python "%HF_PRECACHE%" >> "%LOG%" 2>&1
  del /f /q "%HF_PRECACHE%" >nul 2>&1
  if errorlevel 1 (echo [WARN] Pre-cache HF partiel. Voir %LOG%.) else (echo [OK] Pre-cache HF)
 ) else (
  echo [INFO] Pre-cache HF saute (sentencepiece manquant).
 )
 :MENU
 echo.
 echo ================== MENU ==================
 echo [A] Lancer l'application (UI)
 echo [B] Builder EXE onefile (sans console)
 echo [C] Builder EXE onedir (dev rapide)
 echo [X] Nettoyer (build/dist/spec/caches/logs)
 echo [V] Voir les 80 dernieres lignes du log
 echo [Q] Quitter (fenetre persiste)
 set /p CHOIX="Votre choix ? "
 if /I "%CHOIX%"=="A" goto RUN
 if /I "%CHOIX%"=="B" goto BUILD_ONEFILE
 if /I "%CHOIX%"=="C" goto BUILD_ONEDIR
 if /I "%CHOIX%"=="X" goto CLEAN_AGAIN
 if /I "%CHOIX%"=="V" goto VIEW_LOG
 if /I "%CHOIX%"=="Q" goto END
 echo Choix invalide.
 goto MENU
 :RUN
 echo.
 echo [RUN] Lancement de l'UI...
 python "%ENTRY%"
 echo.
 echo [INFO] L'UI s'est fermee. Retour menu.
 pause
 goto MENU
 :BUILD_ONEFILE
 echo.
 echo [BUILD] EXE onefile (sans console)
 taskkill /IM %EXENAME%.exe /F >nul 2>&1
 rmdir /s /q build dist out 2>nul
 set "PYI_COMMON=--clean --noconfirm --onefile --noconsole --name %EXENAME% --hidden-import=pdfplumber --hidden-import=pdfminer --hidden-import=pdfminer.six --hidden-import=cffi --hidden-import=_cffi_backend --hidden-import=cryptography --hidden-import=cryptography.hazmat.bindings._rust --hidden-import=sentencepiece --collect-binaries cryptography --collect-binaries cffi --collect-binaries sentencepiece --collect-data cryptography --collect-data pdfminer --collect-data pdfplumber --collect-data spacy --collect-all transformers --collect-all tokenizers --collect-all huggingface_hub --collect-data torch"
 set "PYI_MODEL="
 if exist "%MODEL_DIR%" set "PYI_MODEL=--add-data ""%MODEL_DIR%;%MODEL_DIR%"""
 echo [CMD] python -m PyInstaller %PYI_COMMON% %PYI_MODEL% "%ENTRY%"
 python -m PyInstaller %PYI_COMMON% %PYI_MODEL% "%ENTRY%" >> "%LOG%" 2>&1
 if errorlevel 1 (
  echo [ERREUR] Build onefile. Voir %LOG% ci-dessous:
  goto VIEW_LOG
 ) else (
  echo [OK] EXE : dist\%EXENAME%.exe
  pause
  goto MENU
 )
 :BUILD_ONEDIR
 echo.
 echo [BUILD] EXE onedir (dev rapide)
 set "PYI_MODEL="
 if exist "%MODEL_DIR%" set "PYI_MODEL=--add-data ""%MODEL_DIR%;%MODEL_DIR%"""
 python -m PyInstaller --clean --noconfirm --onedir --noconsole --name %EXENAME%_dev %PYI_MODEL% --hidden-import=pdfplumber --hidden-import=pdfminer --hidden-import=pdfminer.six --hidden-import=cffi --hidden-import=_cffi_backend --hidden-import=cryptography --hidden-import=cryptography.hazmat.bindings._rust --hidden-import=sentencepiece --collect-binaries cryptography --collect-binaries cffi --collect-binaries sentencepiece --collect-data cryptography --collect-data pdfminer --collect-data pdfplumber --collect-data spacy --collect-all transformers --collect-all tokenizers --collect-all huggingface_hub --collect-data torch "%ENTRY%" >> "%LOG%" 2>&1
 if errorlevel 1 (
  echo [ERREUR] Build onedir. Voir %LOG% ci-dessous:
  goto VIEW_LOG
 ) else (
  echo [OK] Dossier : dist\%EXENAME%_dev
  pause
  goto MENU
 )
 :CLEAN_AGAIN
 echo.
 echo [CLEAN] Suppression build/dist/out/*.spec/caches/logs
 if exist ".\build" rmdir /s /q ".\build" >nul 2>&1
 if exist ".\dist"  rmdir /s /q ".\dist"  >nul 2>&1
 if exist ".\out"   rmdir /s /q ".\out"   >nul 2>&1
 del /f /q *.spec build_log.txt 2>nul
 for /d %%D in (__pycache__ .pytest_cache .mypy_cache) do if exist "%%D" rmdir /s /q "%%D" 2>nul
 echo [CLEAN] OK
 pause
 goto MENU
 :VIEW_LOG
 echo.
 echo ===== Dernieres lignes de %LOG% =====
 if exist "%LOG%" (
  powershell -NoLogo -NoProfile -Command "Get-Content -Path '%LOG%' -Tail 80"
 ) else (
  echo (pas de log pour l'instant)
 )
 echo =====================================
 pause
 goto MENU
 :END
 echo.
 echo Fin du script. La fenetre reste ouverte (mode persistant).