fix(detect): add "das" to stopwords (acronyme PMSI, pas un nom)

Sur le corpus FC, "DAS" était détecté comme nom de famille INSEE en
contexte fort (suivi de "DR") et compté comme leak audit par le scoring.

En réalité, DAS est un **acronyme PMSI / T2A** :
- DP = Diagnostic Principal
- DR = Diagnostic Relié
- **DAS = Diagnostic Associé Significatif**

Contexte typique :
    DR
    DAS
    Actes
    Rappel : un code CIM de DAS suivi d'un astérisque correspond à
    une CMA exclue par le DP

Le pipeline pensait "Dr. DAS" = médecin nommé DAS. Ajout de "das" aux
stopwords pour bloquer la détection.

Risque résiduel : si un vrai patient/médecin nommé DAS existe, il ne
sera pas masqué. C'est un trade-off acceptable car le PMSI utilise DAS
partout dans les rapports T2A.

Impact attendu : score qualité FC remonte 99.3 → ~100/100 (1 leak audit
fictif éliminé).

Découverte par Qwen dans son audit du 2026-06-02 14:50.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-02 16:47:32 +02:00
parent 745ebd93fb
commit ac0de43f98

View File

@@ -337,6 +337,7 @@ dabigatran
dafalgan
dans
dapagliflozine
das
date
dax
dci