Commit Graph

7 Commits

Author SHA1 Message Date
c110de4a2e feat(T-I): validateur paranames + filtre mots-outils FR du gazetteer
Validateur scripts/validate_paranames.py exécuté sur le gazetteer réel,
révèle 2 défauts → corrigés :

- Mots-outils FR (avec/dans/voir/...) présents dans INSEE/paranames →
  risque FP au contexte 'low'. Ajout de 347 mots-outils spaCy fr (sûrs,
  filtrés des patronymes INSEE fréquents) à stopwords_manuels.txt.
  build_paranames_gazetteer.py filtre désormais aussi contre ce fichier ;
  gazetteer reconstruit (1 379 196 noms, mots-outils ≥3 chars retirés).
- Priorité sécurité respectée : allez/polygone sont de vrais patronymes
  INSEE rares → laissés MASQUABLES (pas de fuite), hors stopwords.
- OYARCABAL reclassé en warning (couvert par regex F3, absent de Wikidata).

Garde-fous vérifiés : Petit/Boucher/Berger conservés, noms étrangers
(EJNAINI/NGUYEN/...) conservés. Validateur 5/5. tests/unit 85 passed.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-03 11:20:21 +02:00
4a6f743cf8 fix(detect): add "das" to stopwords (acronyme PMSI, pas un nom)
Sur le corpus FC, "DAS" était détecté comme nom de famille INSEE en
contexte fort (suivi de "DR") et compté comme leak audit par le scoring.

En réalité, DAS est un **acronyme PMSI / T2A** :
- DP = Diagnostic Principal
- DR = Diagnostic Relié
- **DAS = Diagnostic Associé Significatif**

Contexte typique :
    DR
    DAS
    Actes
    Rappel : un code CIM de DAS suivi d'un astérisque correspond à
    une CMA exclue par le DP

Le pipeline pensait "Dr. DAS" = médecin nommé DAS. Ajout de "das" aux
stopwords pour bloquer la détection.

Risque résiduel : si un vrai patient/médecin nommé DAS existe, il ne
sera pas masqué. C'est un trade-off acceptable car le PMSI utilise DAS
partout dans les rapports T2A.

Impact attendu : score qualité FC remonte 99.3 → ~100/100 (1 leak audit
fictif éliminé).

Découverte par Qwen dans son audit du 2026-06-02 14:50.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-06-02 16:47:32 +02:00
9bd4729048 fix(c8): remove 'grand' from stopwords (was filtering INSEE name)
Le mot "grand" en stopword filtrait les noms INSEE valides
comme GRAND, BILLON-GRAND lors du masquage NER. Sur le corpus
audit_30 : 17 fuites du nom "GRAND" dans
trackare-05012965-23060770.

Fix : suppression de la ligne (pipeline INSEE exige contexte
fort pour masquer, "grand" minuscule isolé ne sera pas FP).

Tests à venir : tests/unit/test_c8_grand_regression.py (Qwen)
Ref: docs/coordination/inbox/for-dom/2026-05-29_qwen_analyse-regression-grand.md

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-29 17:58:54 +02:00
2f19f7c470 fix: DR. Ute (3 chars), SAINT-GERMES composé, SODIUM MACO/BAX pharma
- force_names bypass le seuil 4 chars (prénoms courts après Dr/Mme : Ute, Eva)
- SAINT seul = bloqué, SAINT-xxx composé = accepté comme nom
- Labos pharma ajoutés aux stop-words + companion blacklist :
  MACO, AGUETTANT, RENAUDIN, ARROW, BIOGARAN, MYLAN, TEVA, ZENTIVA
- Score : 99.8/100 (amélioration, "Sie" corrigé)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-31 15:17:37 +02:00
2a4b9d79a1 Revert "refactor: réduction stop-words manuels — NER cross-validation suffit"
This reverts commit fb7896f88d.
2026-03-31 11:04:51 +02:00
fb7896f88d refactor: réduction stop-words manuels — NER cross-validation suffit
La cross-validation NER (_cross_validate_name_candidates) gère désormais
les décisions contextuelles nom/terme-médical. Les stop-words purement
médicaux sont supprimés :

- data/stopwords_manuels.txt : 1307 → 233 entrées (uniquement les mots
  ambigus qui sont aussi des noms/prénoms INSEE)
- _MEDICAL_STOP_WORDS_SET hardcodé : ~400 → 80 entrées essentielles
  (mots courts, formes galéniques, titres hospitaliers)
- Les enrichissements BDPM (~7300), edsnlp (~2000) et fichier externe
  sont conservés tels quels

Score qualité inchangé : 100/100 (A+), 0 fuite, 0 faux positif.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-31 09:26:54 +02:00
ac5c35ae2d feat: externalisation des listes — stop-words et villes modifiables sans code
Toutes les listes de règles sont maintenant modifiables sans toucher
au code Python :

Fichiers de données (data/) :
  - stopwords_manuels.txt : 1307 termes médicaux/techniques
  - villes_blacklist.txt : 117 communes à ne pas matcher
  - medicaments_stopwords.txt : 7312 médicaments BDPM (existant)
  - Chargés automatiquement au démarrage

Config YAML (dictionnaires.yml) :
  - additional_stopwords : mots supplémentaires par établissement
  - additional_villes_blacklist : villes supplémentaires
  - whitelist_phrases : phrases à ne jamais anonymiser
  - force_mask_terms : mots à toujours masquer

Chaîne de chargement : code dur → fichiers data/ → YAML config
Les 3 niveaux se cumulent (union).

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-31 07:45:42 +02:00