Amélioration qualité anonymisation : dico médicaments auto, noms soignants, garde trackare, validation EDS, QC audit
- Track A : chargement automatique de ~4200 noms de médicaments depuis edsnlp/drugs.json dans _MEDICAL_STOP_WORDS_SET (réduit les faux positifs médicaments) - Track B : règles de validation EDS par type (NOM rejeté si contexte dosage, HOPITAL rejeté si < 5 chars ou mot structurel) - Track C : nouveau script qc_audit.py pour contrôle qualité post-anonymisation (scan FN résiduels, densité placeholders, FP/FN candidats, mode batch CSV) - Track D : garde structurelle trackare — NOM_GLOBAL <= 3 chars ignoré dans les documents trackare pour éviter de masquer des codes diagnostics - Track E : détection enrichie des noms soignants (Pr/Professeur, Prescripteur, Prescrit par, Exécuté par, Réalisé par) Testé sur 3 OGC (407, 316, 589) — 4 PDFs, 0 erreur, 0 PII résiduel, 0 faux positif détecté. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@@ -54,6 +54,27 @@ try:
|
||||
except Exception:
|
||||
EdsPseudoManager = None # type: ignore
|
||||
|
||||
|
||||
def _load_edsnlp_drug_names() -> set:
|
||||
"""Charge les noms de médicaments mono-mot depuis edsnlp/resources/drugs.json.
|
||||
Retourne un set lowercase. Fallback silencieux si edsnlp absent."""
|
||||
try:
|
||||
import edsnlp as _edsnlp
|
||||
drugs_path = _edsnlp.BASE_DIR / "resources" / "drugs.json"
|
||||
if not drugs_path.exists():
|
||||
return set()
|
||||
import json as _json
|
||||
data = _json.loads(drugs_path.read_text(encoding="utf-8"))
|
||||
result = set()
|
||||
for _code, names in data.items():
|
||||
for name in names:
|
||||
if " " not in name and len(name) >= 4:
|
||||
result.add(name.lower())
|
||||
return result
|
||||
except Exception:
|
||||
return set()
|
||||
|
||||
|
||||
# ----------------- Defaults & Config -----------------
|
||||
DEFAULTS_CFG = {
|
||||
"version": 1,
|
||||
@@ -312,15 +333,18 @@ _MEDICAL_STOP_WORDS_SET = {
|
||||
"indication", "conclusion", "technique", "anesthésie",
|
||||
"digestif", "digestive", "digestives", "nutritive",
|
||||
}
|
||||
# Enrichissement automatique avec les ~4000 noms de médicaments d'edsnlp
|
||||
_MEDICAL_STOP_WORDS_SET.update(_load_edsnlp_drug_names())
|
||||
|
||||
_MEDICAL_STOP_WORDS = (
|
||||
r"(?:" + "|".join(re.escape(w) for w in _MEDICAL_STOP_WORDS_SET) + r")"
|
||||
)
|
||||
# Un token de nom : commence par majuscule, lettres/tirets/apostrophes (PAS d'espace ni de point)
|
||||
_PERSON_TOKEN = r"[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-\']+"
|
||||
RE_PERSON_CONTEXT = re.compile(
|
||||
r"(?:(?:Dr\.?|DR\.?|Docteur|Mme|MME|Madame|M\.|Mr\.?|Monsieur"
|
||||
r"(?:(?:Dr\.?|DR\.?|Docteur|Pr\.?|Professeur|Mme|MME|Madame|M\.|Mr\.?|Monsieur"
|
||||
r"|Nom\s*:\s*"
|
||||
r"|Rédigé\s+par|Validé\s+par|Signé\s+par|Saisi\s+par"
|
||||
r"|Rédigé\s+par|Validé\s+par|Signé\s+par|Saisi\s+par|Réalisé\s+par"
|
||||
r")\s+)"
|
||||
rf"({_PERSON_TOKEN}(?:\s+{_PERSON_TOKEN}){{0,2}})" # Max 3 mots
|
||||
)
|
||||
@@ -390,10 +414,17 @@ RE_EXTRACT_DR_DEST = re.compile(
|
||||
)
|
||||
# Noms du personnel médical après un rôle : "Aide : Marie-Paule BORDABERRY"
|
||||
RE_EXTRACT_STAFF_ROLE = re.compile(
|
||||
r"(?:Aide|Infirmière?|IDE|IADE|IBODE|ASH?|Cadre\s+Infirmier)\s*:\s*"
|
||||
r"(?:Aide|Infirmière?|IDE|IADE|IBODE|ASH?|Cadre\s+Infirmier"
|
||||
r"|Prescripteur|Prescrit\s+par|Exécut[ée]\s+par|Réalisé\s+par)\s*:?\s*"
|
||||
r"((?:[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][a-zéèàùâêîôûäëïöüç]+(?:\s*-\s*[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][a-zéèàùâêîôûäëïöüç]+)?\s+)?"
|
||||
r"(?:[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ]{2,}[\-]?)(?:[\s\-]+[A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ]{2,})*)",
|
||||
)
|
||||
# "Pr DUVAL", "Pr. J.-M. DUVAL", "Professeur DUVAL"
|
||||
RE_EXTRACT_PR = re.compile(
|
||||
r"(?:Pr\.?|Professeur)\s+"
|
||||
+ _INITIAL_OPT +
|
||||
rf"((?:{_UC_NAME_TOKEN})(?:\s+(?:{_UC_NAME_TOKEN}))*)",
|
||||
)
|
||||
|
||||
CID_PATTERN = re.compile(r"\(cid:\d+\)")
|
||||
|
||||
@@ -467,6 +498,7 @@ class AnonResult:
|
||||
text_out: str
|
||||
tables_block: str
|
||||
audit: List[PiiHit] = field(default_factory=list)
|
||||
is_trackare: bool = False
|
||||
|
||||
# ----------------- Config loader -----------------
|
||||
|
||||
@@ -877,6 +909,18 @@ def _extract_trackare_identity(full_text: str) -> Tuple[set, List[PiiHit]]:
|
||||
if m.group(2):
|
||||
_add_name(m.group(2))
|
||||
|
||||
# --- Prescripteurs / Exécutants (trackare) ---
|
||||
for m in re.finditer(
|
||||
r"(?:Prescripteur|Prescrit\s+par|Exécut[ée]\s+par|Réalisé\s+par)\s*:?\s*"
|
||||
r"(?:(?:Dr|Pr)\.?\s+)?"
|
||||
r"([A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-']+)"
|
||||
r"(?:\s+([A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-']+))?",
|
||||
full_text,
|
||||
):
|
||||
_add_name(m.group(1))
|
||||
if m.group(2):
|
||||
_add_name(m.group(2))
|
||||
|
||||
# --- Médecins urgences (IAO, prise en charge, décision) ---
|
||||
for m in re.finditer(r"IAO\s+([A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇ][A-ZÉÈÀÙÂÊÎÔÛÄËÏÖÜÇa-zéèàùâêîôûäëïöüç\-]+)", full_text):
|
||||
_add_name(m.group(1))
|
||||
@@ -991,9 +1035,12 @@ def _extract_document_names(full_text: str, cfg: Dict[str, Any]) -> set:
|
||||
_add_tokens(m.group(1))
|
||||
if m.group(2):
|
||||
_add_tokens(m.group(2))
|
||||
# Personnel médical avec rôle (Aide, Cadre Infirmier, etc.)
|
||||
# Personnel médical avec rôle (Aide, Cadre Infirmier, Prescripteur, etc.)
|
||||
for m in RE_EXTRACT_STAFF_ROLE.finditer(full_text):
|
||||
_add_tokens(m.group(1))
|
||||
# Pr / Professeur + nom(s)
|
||||
for m in RE_EXTRACT_PR.finditer(full_text):
|
||||
_add_tokens_force_first(m.group(1))
|
||||
|
||||
# Extraction des noms dans les listes virgulées après Dr/Docteur
|
||||
# ex: "le Dr DUVAL, MACHELART, CHARLANNE, LAZARO, il a été proposé"
|
||||
@@ -1066,7 +1113,8 @@ def anonymise_document_regex(pages_text: List[str], tables_lines: List[List[str]
|
||||
extracted_names = _extract_document_names(full_raw, cfg)
|
||||
|
||||
# Phase 0b : si document Trackare, extraction renforcée des PII structurés
|
||||
if _is_trackare_document(full_raw):
|
||||
is_trackare = _is_trackare_document(full_raw)
|
||||
if is_trackare:
|
||||
trackare_names, trackare_hits = _extract_trackare_identity(full_raw)
|
||||
extracted_names.update(trackare_names)
|
||||
audit.extend(trackare_hits)
|
||||
@@ -1094,7 +1142,7 @@ def anonymise_document_regex(pages_text: List[str], tables_lines: List[List[str]
|
||||
if extracted_names:
|
||||
text_out = _apply_extracted_names(text_out, extracted_names, audit)
|
||||
|
||||
return AnonResult(text_out=text_out, tables_block=tables_block, audit=audit)
|
||||
return AnonResult(text_out=text_out, tables_block=tables_block, audit=audit, is_trackare=is_trackare)
|
||||
|
||||
# ----------------- NER ONNX sur narratif -----------------
|
||||
|
||||
@@ -1193,6 +1241,20 @@ def _mask_with_eds_pseudo(text: str, ents: List[Dict[str, Any]], cfg: Dict[str,
|
||||
# Filtrer les dosages détectés comme noms (ex: "10MG", "300UI", "1 000")
|
||||
if re.match(r"^\d[\d\s]*(?:mg|MG|ml|ML|UI|µg|mcg|g|kg|%)?$", w.strip()):
|
||||
continue
|
||||
# Règles de validation heuristiques par type d'entité
|
||||
if label in ("NOM", "PRENOM"):
|
||||
# Rejeter si le contexte précédent (15 chars) contient un dosage
|
||||
pos = text.find(w)
|
||||
if pos > 0:
|
||||
ctx_before = text[max(0, pos - 15):pos]
|
||||
if re.search(r"\d+\s*(?:mg|UI|ml|µg|mcg)\b", ctx_before, re.IGNORECASE):
|
||||
continue
|
||||
elif label == "HOPITAL":
|
||||
_STRUCTURAL_WORDS = {"SERVICE", "POLE", "PÔLE", "UNITE", "UNITÉ", "SECTEUR"}
|
||||
if len(w) < 5:
|
||||
continue
|
||||
if w.upper() in _STRUCTURAL_WORDS:
|
||||
continue
|
||||
placeholder = PLACEHOLDERS.get(mapped_key, PLACEHOLDERS["MASK"])
|
||||
audit.append(PiiHit(-1, f"EDS_{label}", w, placeholder))
|
||||
out = repl_once(out, w, placeholder)
|
||||
@@ -1571,6 +1633,9 @@ def process_pdf(
|
||||
token = h.original.strip()
|
||||
if not token or len(token) < 3:
|
||||
continue
|
||||
# Garde trackare : NOM_GLOBAL très court (<=3) risque de masquer des codes diagnostics
|
||||
if anon.is_trackare and h.kind == "NOM_GLOBAL" and len(token) <= 3:
|
||||
continue
|
||||
try:
|
||||
final_text = re.sub(rf"\b{re.escape(token)}\b", h.placeholder, final_text)
|
||||
except re.error:
|
||||
|
||||
Reference in New Issue
Block a user