Dom/t2a_v2

Go to file

dom 13fe9fa666 chore: mise à jour output pipeline (anonymized + structured)

Résultats de re-traitement pipeline v2 sur 261 dossiers.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-03-07 23:14:42 +01:00

.kiro/settings

chore: add .gitignore

2026-03-05 00:37:41 +01:00

config

chore: nettoyage YAML base.yaml + corrections templates viewer

2026-03-07 22:07:00 +01:00

cpam

chore: suppression scripts obsolètes, anciens benchmarks et fichiers de dev

2026-03-07 16:49:26 +01:00

data

chore: mise à jour index FAISS (+15 référentiels ATIH) et cache ollama

2026-03-07 23:14:32 +01:00

docs

chore: add .gitignore

2026-03-05 00:37:41 +01:00

output

chore: mise à jour output pipeline (anonymized + structured)

2026-03-07 23:14:42 +01:00

src

feat: optimisations pipeline médical (bio_normals, GHM, DP selector, CIM-10)

2026-03-07 23:14:13 +01:00

tests

chore: nettoyage YAML base.yaml + corrections templates viewer

2026-03-07 22:07:00 +01:00

tools

chore: add .gitignore

2026-03-05 00:37:41 +01:00

unsloth_compiled_cache

chore: add .gitignore

2026-03-05 00:37:41 +01:00

.env.example

feat: guardian déterministe + config modèles locaux + prompt TIM R1-R6

2026-03-04 22:00:40 +01:00

.gitignore

chore: add .gitignore

2026-03-05 00:37:41 +01:00

batch_50.sh

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00

CCAM_V81.xls

chore: add .gitignore

2026-03-05 00:37:41 +01:00

gunicorn.conf.py

refactor: réorganisation référentiels, nouveaux modules extraction, nettoyage code obsolète

2026-03-07 16:48:10 +01:00

pyproject.toml

feat: interface admin regles, refactoring viewer, README, pyproject.toml

2026-03-07 19:11:27 +01:00

RAPPORT_METIER_T2A_V2.md

chore: add .gitignore

2026-03-05 00:37:41 +01:00

README.md

feat: interface admin regles, refactoring viewer, README, pyproject.toml

2026-03-07 19:11:27 +01:00

requirements-dev.txt

feat: infrastructure — pyproject.toml, requirements-dev, conftest, pytest-cov

2026-02-20 10:06:11 +01:00

requirements.txt

refactor: réorganisation référentiels, nouveaux modules extraction, nettoyage code obsolète

2026-03-07 16:48:10 +01:00

run.sh

feat: architecture multi-modèles LLM + quality engine + benchmark

2026-02-20 00:21:09 +01:00

sans titre_diarization.rttm

chore: add .gitignore

2026-03-05 00:37:41 +01:00

sans titre_diarized.txt

chore: add .gitignore

2026-03-05 00:37:41 +01:00

sans titre_summary_v2.md

chore: add .gitignore

2026-03-05 00:37:41 +01:00

t2a-viewer.service

refactor: réorganisation référentiels, nouveaux modules extraction, nettoyage code obsolète

2026-03-07 16:48:10 +01:00

README.md

T2A — Pipeline de codage PMSI automatise

Pipeline d'extraction et de codage CIM-10/CCAM pour le PMSI hospitalier (MCO). Transforme les comptes rendus d'hospitalisation (CRH) et fiches Trackare en dossiers structures, codes et valorises.

Architecture

input/               PDFs bruts (CRH, Trackare, anapath, bacterio)
  |
  v
[Extraction]         pdfplumber / OCR / DOCX / images
  |
  v
[Anonymisation]      CamemBERT NER + regex (PHI -> pseudonymes)
  |
  v
[Codage CIM-10]      LLM local (Ollama) + RAG FAISS + regles ATIH
  |                   diagnostic_extraction -> validation_pipeline
  v
[Arbitrage DP]       dp_selector (LLM) -> dp_finalizer (deterministe)
  |                   Trackare vs CRH-only, traçabilite audit
  v
[Qualite]            veto_engine (contestabilite) + decision_engine
  |                   completude (checklist documents) + severity (CMA)
  v
[CPAM]               cpam_parser + cpam_response (contre-argumentation LLM)
  |                   guardian deterministe + validation adversariale
  v
output/              JSON structures, rapports, export RUM
  |
  v
[Viewer Flask]       Dashboard, detail dossier, synthese DIM, CPAM, validation

Modules principaux

Module	Role
`src/extraction/`	Parsers PDF, DOCX, images, OCR, classification documents
`src/anonymization/`	Anonymisation NER + regex, registre d'entites
`src/medical/`	CIM-10, CCAM, biologie, RAG FAISS, LLM Ollama, fusion multi-documents
`src/quality/`	Moteur de vetos deterministe, decisions, completude, routage regles
`src/control/`	Controles CPAM, contre-argumentation, validation adversariale
`src/viewer/`	Application Flask (dashboard, detail, DIM, admin, regles)
`config/`	12 fichiers YAML de regles editables via l'interface web

Moteur de regles

Le pipeline utilise un moteur de regles 100% deterministe (pas de LLM) pour :

Vetos : bloquer les codes sans preuve, negatifs, doublons, contradictions bio
Decisions : downgrade, ecartement, promotion DP
Conflits : exclusions mutuelles CIM-10, incompatibilites
Bio : contradiction labo vs diagnostic code
Completude : checklist documents manquants

Toutes les regles sont dans config/*.yaml et editables via /admin/rules.

RAG (Retrieval-Augmented Generation)

Index FAISS avec ~23 000 vecteurs issus de :

CIM-10 FR 2026, Guide Methodologique MCO 2026, CCAM V4
30 referentiels supplementaires (COCOA 2025, fascicules ATIH, etc.)
Embeddings : sentence-camembert-large (francais medical)

Separation en 3 index : ref (referentiels), proc (procedures), bio (biologie).

Installation

# Prerequis : Python 3.11+, Ollama avec gemma3:27b
git clone <repo> && cd t2a_v2
python -m venv .venv && source .venv/bin/activate
pip install -e ".[dev]"

# Variables d'environnement (.env)
OLLAMA_URL=http://localhost:11434
T2A_MODEL_CODING=gemma3:27b
T2A_MODEL_CPAM=mistral-small3.2:24b
# ANTHROPIC_API_KEY=sk-...  (optionnel, fallback cloud)

Utilisation

# Pipeline CLI : traiter des PDFs
python -m src.main input/dossier/

# Reconstruire l'index RAG
python -m src.main --rebuild-index

# Viewer web (developpement)
python -m src.viewer

# Viewer web (production)
gunicorn -c gunicorn.conf.py 'src.viewer:create_app()'

Tests

pytest                    # 239+ tests, ~10s
pytest -k test_viewer     # Tests viewer uniquement
pytest -k test_cpam       # Tests CPAM

Structure des donnees

Chaque dossier produit un JSON structure (DossierMedical Pydantic) contenant :

diagnostic_principal : code CIM-10, confiance, justification, source
diagnostics_associes : DAS avec decisions (KEEP/DOWNGRADE/REMOVE/RULED_OUT)
actes_ccam : actes codes
veto_report : score de contestabilite (0-10), issues detectees
completude : checklist, score, verdict
ghm_estimation : GHM, severite, valorisation estimee
controles_cpam : contre-argumentations generees

Deploiement

Service systemd inclus (t2a-viewer.service), config gunicorn (gunicorn.conf.py). Auth HTTP Basic configurable via T2A_DEMO_USER / T2A_DEMO_PASS.