feat(core): _category_of dérivé (anti-dérive) + filtre audit Tier 1 (P1-2/F-1)

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-26 09:54:32 +02:00
parent c93dc34a70
commit b15d0da141
2 changed files with 141 additions and 1 deletions

View File

@@ -36,7 +36,7 @@ for _env in ("OMP_NUM_THREADS", "MKL_NUM_THREADS", "OPENBLAS_NUM_THREADS",
log = logging.getLogger(__name__)
from dataclasses import dataclass, field
from pathlib import Path
from typing import List, Dict, Tuple, Optional, Any
from typing import List, Dict, Tuple, Optional, Any, Set
def _bundle_root() -> Path:
@@ -609,6 +609,85 @@ PLACEHOLDERS = {
CRITICAL_PII_KEYS = {"EMAIL", "TEL", "IBAN", "NIR", "IPP", "DATE_NAISSANCE"}
# ---------------------------------------------------------------------------
# Gating par catégorie (Plan 1b — P1-2/F-1)
# ---------------------------------------------------------------------------
# Les 7 catégories toggleables de la GUI ↔ type de placeholder. Tout autre
# placeholder → None ⇒ default-deny (reste TOUJOURS masqué). Dérivation
# anti-dérive : on lit les maps sources (VLM/EDS) plutôt qu'une table figée.
_PLACEHOLDER_TO_CATEGORY = {
"NOM": "NOM", "DATE_NAISSANCE": "DATE_NAISSANCE", "ETAB": "ETAB",
"ADRESSE": "ADRESSE", "NIR": "NIR", "TEL": "TEL", "ADHERENT": "ADHERENT",
"CODE_POSTAL": "ADRESSE", # décision Dom 2026-06-26 : CP suit le toggle « Adresses »
}
# Kinds regex/inline non dérivables d'une map → leur catégorie explicitement.
# ⚠ Table manuelle : ajouter ici tout nouveau kind regex/inline d'une des 7
# catégories (non couvert par le test anti-dérive, qui ne vérifie que VLM/EDS).
_EXPLICIT_KIND_CATEGORY = {
"NOM_FORCE": "NOM", "NOM_EXTRACTED": "NOM", "NOM_INITIAL": "NOM",
"NER_PER": "NOM", "NER_ORG": "ETAB",
"ETAB_FINESS": "ETAB", "ETAB_SPACED": "ETAB",
"ADDR_FINESS": "ADRESSE",
}
def _placeholder_to_category(placeholder):
"""Type de placeholder → catégorie toggleable (ou None)."""
return _PLACEHOLDER_TO_CATEGORY.get(str(placeholder).strip("[]").upper())
def _category_of(kind):
"""Catégorie toggleable d'un kind d'audit, ou None (default-deny → masqué).
Ordre de dérivation anti-dérive :
1. suffixe ``_GLOBAL`` → recatégoriser la base ;
2. table explicite des kinds regex/inline ;
3. kind = placeholder toggleable lui-même ;
4. ``VLM_*`` → placeholder via l'inverse de ``VLM_CATEGORY_MAP`` ;
5. ``EDS_*`` → label → placeholder via ``EDS_LABEL_MAP`` ;
6. sinon ``None`` (default-deny → toujours masqué).
"""
if not kind:
return None
if kind.endswith("_GLOBAL"):
return _category_of(kind[: -len("_GLOBAL")])
if kind in _EXPLICIT_KIND_CATEGORY:
return _EXPLICIT_KIND_CATEGORY[kind]
if kind in _PLACEHOLDER_TO_CATEGORY:
return _PLACEHOLDER_TO_CATEGORY[kind]
if kind.startswith("VLM_"):
try:
import vlm_manager
rev = {k: ph for (k, ph) in vlm_manager.VLM_CATEGORY_MAP.values()}
return _placeholder_to_category(rev.get(kind))
except Exception:
return None
if kind.startswith("EDS_"):
try:
import eds_pseudo_manager
label = kind[len("EDS_"):]
ph = eds_pseudo_manager.EDS_LABEL_MAP.get(label, label)
return _placeholder_to_category(ph)
except Exception:
return None
return None
def _filter_audit_by_disabled(audit, disabled_kinds):
"""Retire de l'audit les hits dont la CATÉGORIE (sortie de _category_of) est désactivée.
``disabled_kinds`` = set des CATÉGORIES désactivées (les 7 toggles :
"NOM", "DATE_NAISSANCE", "ETAB", "ADRESSE", "NIR", "TEL", "ADHERENT"),
PAS des kinds bruts. Le nom du paramètre reste ``disabled_kinds`` par
cohérence avec le plan / la GUI.
No-op si ``disabled_kinds`` est vide/None (garantie de non-régression).
"""
if not disabled_kinds:
return audit
return [h for h in audit if _category_of(h.kind) not in disabled_kinds]
# Baseline regex
RE_EMAIL = re.compile(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}")
RE_URL = re.compile(r"https?://[A-Za-z0-9._~:/?#\[\]@!$&'()*+,;=\-%]+", re.IGNORECASE)
@@ -4984,6 +5063,7 @@ def process_pdf(
gliner_manager=None,
camembert_manager=None,
quarantine_mgr: Optional["QuarantineManager"] = None,
disabled_kinds: Optional[Set[str]] = None,
) -> Dict[str, str]:
perf_t0 = time.perf_counter()
last_mark = perf_t0
@@ -5000,6 +5080,10 @@ def process_pdf(
_log_env_banner()
out_dir.mkdir(parents=True, exist_ok=True)
cfg = load_dictionaries(config_path)
# Plan 1b (P1-2/F-1) : catégories désactivées dans la GUI. Vide par défaut
# ⇒ no-op (aucun changement de comportement vs aujourd'hui).
# NB: catégories (sortie de _category_of), pas kinds bruts.
cfg["disabled_kinds"] = set(disabled_kinds or ())
_perf_mark("load_config")
pages_text, tables_lines, ocr_used, ocr_word_map = extract_text_with_fallback_ocr(pdf_path)
_perf_mark("extract_text_ocr")
@@ -5518,6 +5602,15 @@ def process_pdf(
return {"status": "quarantined", "reason": "rescan_residual_pii",
"residual_count": residual_count, "text": "", "audit": ""}
# Plan 1b (P1-2/F-1) — Filtre Tier 1 : retire de l'audit les hits dont la
# catégorie est désactivée, JUSTE AVANT le burn PDF et l'écriture de l'audit.
# Comme le burn PDF (vector + raster) et le .audit.jsonl dérivent tous de
# anon.audit, cette mutation unique en place sécurise le livrable PDF et la
# piste d'audit. No-op si disabled_kinds est vide (non-régression).
_disabled = cfg.get("disabled_kinds") or set()
if _disabled:
anon.audit = _filter_audit_by_disabled(anon.audit, _disabled)
# Sauvegardes
base = pdf_path.stem
txt_path = out_dir / f"{base}.pseudonymise.txt"