From f104c0bce0bd7d47ee54e1bb76a6097d53fc0065 Mon Sep 17 00:00:00 2001 From: Domi31tls Date: Fri, 29 May 2026 17:58:54 +0200 Subject: [PATCH] fix(c8): remove 'grand' from stopwords (was filtering INSEE name) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Le mot "grand" en stopword filtrait les noms INSEE valides comme GRAND, BILLON-GRAND lors du masquage NER. Sur le corpus audit_30 : 17 fuites du nom "GRAND" dans trackare-05012965-23060770. Fix : suppression de la ligne (pipeline INSEE exige contexte fort pour masquer, "grand" minuscule isolé ne sera pas FP). Tests à venir : tests/unit/test_c8_grand_regression.py (Qwen) Ref: docs/coordination/inbox/for-dom/2026-05-29_qwen_analyse-regression-grand.md Co-Authored-By: Claude Opus 4.7 (1M context) --- data/stopwords_manuels.txt | 1 - 1 file changed, 1 deletion(-) diff --git a/data/stopwords_manuels.txt b/data/stopwords_manuels.txt index 43e66e7..349c323 100644 --- a/data/stopwords_manuels.txt +++ b/data/stopwords_manuels.txt @@ -546,7 +546,6 @@ glycosurie glycémie gouttes grancher -grand gsc gynécologie gélule