Files
anonymisation/docs/beta/2026-07-02_plan3-reference-docs-reels.md

3.8 KiB

Référence détections — 6 documents réels (Plan 3, avant build torch-free)

Établie sur HEAD 7dba401 (.venv Linux, chemin dev). Sert de comparaison au smoke Windows torch-free (Task 8). AUCUNE valeur PII — compteurs uniquement.

Les documents sont identifiés par leur numéro de dossier du corpus interne (jamais par un nom de patient). ⚠️ RGPD : ces numéros de dossier sont des identifiants indirects — usage interne uniquement. Avant toute diffusion externe de ce fichier, les remplacer par des étiquettes neutres (DOC-A, DOC-B…). Les sorties de traitement sont restées dans /tmp (non commité). Les compteurs proviennent du champ kind de l'audit .audit.jsonl produit par scripts/anonymize_cli.py (contrat de production : burn raster + texte pseudonymisé + audit JSONL). Le champ original (la valeur détectée) n'a jamais été lu ni recopié.

Environnement de référence

  • pytest tests/unit = 499 passed / 0 failed (7 warnings, 0 fail).
  • pytest -k synthetic_regression = PASS (11 passed, 488 deselected) — gate strict de non-régression du masquage.
  • CamemBERT-bio ONNX v3 chargé (obligatoire) ✓ ; EDS-Pseudo chargé (optionnel) ✓ ; GLiNER désactivé (défaut).
  • Chemin dev : torch=2.10.0+cu128 présent dans l'environnement (c'est précisément ce que le build Windows torch-free retirera). CamemBERT-bio tourne déjà via onnxruntime, indépendant de torch.

Détections par document

Doc (n° dossier) Type Pages ocr_used Code Total dét. Détections par type (kind)
102_23056463 natif 2 False 0 104 NOM:31 RPPS:24 ETAB:18 TEL:10 VILLE_GAZ:4 CODE_POSTAL:3 DATE_NAISSANCE:3 EMAIL:2 EPISODE:2 FAX:2 FINESS:2 IPP:2 VILLE:1
101_23041413 natif 1 False 0 22 NOM:7 CODE_POSTAL:6 NOM_INITIAL:4 ADRESSE:2 NOM_FORCE:2 VILLE:1
103_23056749 natif 2 False 0 109 NOM:33 RPPS:24 ETAB:18 TEL:10 VILLE_GAZ:5 CODE_POSTAL:3 DATE_NAISSANCE:3 EMAIL:2 EPISODE:2 FAX:2 FINESS:2 IPP:2 ADRESSE:1 ETAB_FINESS:1 VILLE:1
192_23132490 scanné 1 True 0 17 NOM:7 CODE_POSTAL:3 ETAB_FINESS:2 TEL:2 DATE_NAISSANCE:1 NOM_FORCE:1 URL:1
19_23103383 scanné 1 True 0 15 NOM:4 CODE_POSTAL:2 ETAB_FINESS:2 TEL:4 DATE_NAISSANCE:1 NOM_FORCE:1 VILLE_GAZ:1
258_23208848 scanné 1 True 0 16 ETAB:4 NOM:3 AGE:2 CODE_POSTAL:2 NOM_FORCE:2 ETAB_FINESS:1 TEL:1 VILLE:1

Notes

  • 3 natifs / 3 scannés confirmés : les 3 natifs ont ocr_used=False (texte extractible directement) ; les 3 scannés ont ocr_used=True (image-only → OCR docTR/OnnxTR). Les 6 codes retour CLI = 0.
  • Tous les documents ont quarantine_flags=[] (aucune mise en quarantaine).
  • Tout écart de compteur au smoke Windows (Task 8) = signal de régression torch-free à investiguer. La comparaison doit se faire par (doc, type de kind, nombre), pas seulement sur le total.
  • Point de vigilance edsnlp/drugs.json (revue Task 2) : si des compteurs de type médicament (ou une variation des NOM/ETAB liée au filtrage médicaments) diffèrent en frozen, c'est potentiellement la perte du gazetteer edsnlp — voir mission Qwen. Aucun kind explicitement « médicament » n'apparaît dans l'audit de ces 6 docs (les médicaments servent de stop-words/whitelist, pas de type détecté), donc surveiller surtout une hausse anormale de NOM/ETAB en frozen (faux positifs par perte du filtre).
  • Rappel : les compteurs d'audit incluent l'ensemble du pipeline (NER multi-signal + regex + gazetteers après cross-validation), ce qui explique un total supérieur au seul « NER-first: N détections » visible dans les logs.