Dom/t2a_v2 - t2a_v2 - Gitea Aivanov : Git with a cup of tea

Dom/t2a_v2

Go to file

dom 1844d1be7e feat: sanitisation déterministe des codes CIM-10 hors périmètre CPAM

Le LLM (deepseek) propose systématiquement des codes alternatifs (D62,
T81.0, T80, R39.2) malgré l'interdiction dans le prompt. Ces codes
déclenchaient des warnings CRITIQUE → Tier C automatique.

Solution conforme au principe "LLM propose, moteur de règles dispose" :
- _sanitize_unauthorized_codes() supprime les codes hors whitelist du
  texte de la réponse AVANT toute validation
- Nettoyage propre : "D62 — libellé" → "libellé", "(D62)" → ""
- _build_whitelist_prefixes() factorisé en helper partagé
- Sanitisation appliquée après génération ET après correction
- 9 tests unitaires couvrant tous les cas (parenthèses, tirets, multiple)

Résultat live : 0 warning CRITIQUE "code hors périmètre" sur 3 dossiers
(vs 6 warnings CRITIQUE avant). Le seul CRITIQUE restant est le score
adversarial bas, qui reflète des limites de raisonnement du modèle.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-02-20 15:18:42 +01:00

feat: BIO_NORMALS 33 analytes + interprétations cliniques + cohérence DAS/bio étendue

2026-02-20 11:00:53 +01:00

fix: garde-fous qualité Phase 1 — codes invalides et raisonnements vides

2026-02-20 07:53:43 +01:00

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00

feat: parallélisation pipeline --workers N (ThreadPoolExecutor)

2026-02-20 01:30:51 +01:00

feat: sanitisation déterministe des codes CIM-10 hors périmètre CPAM

2026-02-20 15:18:42 +01:00

feat: sanitisation déterministe des codes CIM-10 hors périmètre CPAM

2026-02-20 15:18:42 +01:00

.env.example

feat: configuration externalisée via .env + audit requirements

2026-02-13 19:46:33 +01:00

.gitignore

feat: configuration externalisée via .env + audit requirements

2026-02-13 19:46:33 +01:00

analyze_pdfs.py

feat: pipeline T2A - anonymisation, extraction CIM-10 et intégration edsnlp

2026-02-10 15:24:12 +01:00

batch_50.sh

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00

pyproject.toml

feat: infrastructure — pyproject.toml, requirements-dev, conftest, pytest-cov

2026-02-20 10:06:11 +01:00

rapport_analyse_pdfs.md

feat: pipeline T2A - anonymisation, extraction CIM-10 et intégration edsnlp

2026-02-10 15:24:12 +01:00

requirements-dev.txt

feat: infrastructure — pyproject.toml, requirements-dev, conftest, pytest-cov

2026-02-20 10:06:11 +01:00

requirements.txt

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00

run.sh

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00