From ac0de43f9820fd4898201d17354a96bed8ce4396 Mon Sep 17 00:00:00 2001 From: Domi31tls Date: Tue, 2 Jun 2026 16:47:32 +0200 Subject: [PATCH] fix(detect): add "das" to stopwords (acronyme PMSI, pas un nom) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Sur le corpus FC, "DAS" était détecté comme nom de famille INSEE en contexte fort (suivi de "DR") et compté comme leak audit par le scoring. En réalité, DAS est un **acronyme PMSI / T2A** : - DP = Diagnostic Principal - DR = Diagnostic Relié - **DAS = Diagnostic Associé Significatif** Contexte typique : DR DAS Actes Rappel : un code CIM de DAS suivi d'un astérisque correspond à une CMA exclue par le DP Le pipeline pensait "Dr. DAS" = médecin nommé DAS. Ajout de "das" aux stopwords pour bloquer la détection. Risque résiduel : si un vrai patient/médecin nommé DAS existe, il ne sera pas masqué. C'est un trade-off acceptable car le PMSI utilise DAS partout dans les rapports T2A. Impact attendu : score qualité FC remonte 99.3 → ~100/100 (1 leak audit fictif éliminé). Découverte par Qwen dans son audit du 2026-06-02 14:50. Co-Authored-By: Claude Opus 4.7 (1M context) --- data/stopwords_manuels.txt | 1 + 1 file changed, 1 insertion(+) diff --git a/data/stopwords_manuels.txt b/data/stopwords_manuels.txt index 349c323..9621514 100644 --- a/data/stopwords_manuels.txt +++ b/data/stopwords_manuels.txt @@ -337,6 +337,7 @@ dabigatran dafalgan dans dapagliflozine +das date dax dci