3.8 KiB
Référence détections — 6 documents réels (Plan 3, avant build torch-free)
Établie sur HEAD 7dba401 (.venv Linux, chemin dev). Sert de comparaison au smoke
Windows torch-free (Task 8). AUCUNE valeur PII — compteurs uniquement.
Les documents sont identifiés par leur numéro de dossier du corpus interne
(jamais par un nom de patient). ⚠️ RGPD : ces numéros de dossier sont des
identifiants indirects — usage interne uniquement. Avant toute diffusion
externe de ce fichier, les remplacer par des étiquettes neutres (DOC-A, DOC-B…). Les sorties de traitement sont restées dans /tmp
(non commité). Les compteurs proviennent du champ kind de l'audit .audit.jsonl
produit par scripts/anonymize_cli.py (contrat de production : burn raster +
texte pseudonymisé + audit JSONL). Le champ original (la valeur détectée) n'a
jamais été lu ni recopié.
Environnement de référence
pytest tests/unit= 499 passed / 0 failed (7 warnings, 0 fail).pytest -k synthetic_regression= PASS (11 passed, 488 deselected) — gate strict de non-régression du masquage.- CamemBERT-bio ONNX v3 chargé (obligatoire) ✓ ; EDS-Pseudo chargé (optionnel) ✓ ; GLiNER désactivé (défaut).
- Chemin dev :
torch=2.10.0+cu128présent dans l'environnement (c'est précisément ce que le build Windows torch-free retirera). CamemBERT-bio tourne déjà via onnxruntime, indépendant de torch.
Détections par document
| Doc (n° dossier) | Type | Pages | ocr_used | Code | Total dét. | Détections par type (kind) |
|---|---|---|---|---|---|---|
| 102_23056463 | natif | 2 | False | 0 | 104 | NOM:31 RPPS:24 ETAB:18 TEL:10 VILLE_GAZ:4 CODE_POSTAL:3 DATE_NAISSANCE:3 EMAIL:2 EPISODE:2 FAX:2 FINESS:2 IPP:2 VILLE:1 |
| 101_23041413 | natif | 1 | False | 0 | 22 | NOM:7 CODE_POSTAL:6 NOM_INITIAL:4 ADRESSE:2 NOM_FORCE:2 VILLE:1 |
| 103_23056749 | natif | 2 | False | 0 | 109 | NOM:33 RPPS:24 ETAB:18 TEL:10 VILLE_GAZ:5 CODE_POSTAL:3 DATE_NAISSANCE:3 EMAIL:2 EPISODE:2 FAX:2 FINESS:2 IPP:2 ADRESSE:1 ETAB_FINESS:1 VILLE:1 |
| 192_23132490 | scanné | 1 | True | 0 | 17 | NOM:7 CODE_POSTAL:3 ETAB_FINESS:2 TEL:2 DATE_NAISSANCE:1 NOM_FORCE:1 URL:1 |
| 19_23103383 | scanné | 1 | True | 0 | 15 | NOM:4 CODE_POSTAL:2 ETAB_FINESS:2 TEL:4 DATE_NAISSANCE:1 NOM_FORCE:1 VILLE_GAZ:1 |
| 258_23208848 | scanné | 1 | True | 0 | 16 | ETAB:4 NOM:3 AGE:2 CODE_POSTAL:2 NOM_FORCE:2 ETAB_FINESS:1 TEL:1 VILLE:1 |
Notes
- 3 natifs / 3 scannés confirmés : les 3 natifs ont
ocr_used=False(texte extractible directement) ; les 3 scannés ontocr_used=True(image-only → OCR docTR/OnnxTR). Les 6 codes retour CLI = 0. - Tous les documents ont
quarantine_flags=[](aucune mise en quarantaine). - Tout écart de compteur au smoke Windows (Task 8) = signal de régression torch-free à investiguer. La comparaison doit se faire par (doc, type de kind, nombre), pas seulement sur le total.
- Point de vigilance edsnlp/drugs.json (revue Task 2) : si des compteurs de type médicament (ou une variation des NOM/ETAB liée au filtrage médicaments) diffèrent en frozen, c'est potentiellement la perte du gazetteer edsnlp — voir mission Qwen. Aucun
kindexplicitement « médicament » n'apparaît dans l'audit de ces 6 docs (les médicaments servent de stop-words/whitelist, pas de type détecté), donc surveiller surtout une hausse anormale de NOM/ETAB en frozen (faux positifs par perte du filtre). - Rappel : les compteurs d'audit incluent l'ensemble du pipeline (NER multi-signal + regex + gazetteers après cross-validation), ce qui explique un total supérieur au seul « NER-first: N détections » visible dans les logs.