dom
e90450903e
feat: enrichissement CIM-10 sous-codes + normes biologiques dans prompt DAS
...
Piste 1 : ajout de cim10_supplements.json (40 sous-codes E10/E11/E13/F10)
fusionné au chargement par load_dict() — E11.9 et autres ne sont plus rejetés.
Piste 2 : export BIO_NORMALS depuis cim10_extractor, inclusion des plages
de référence [N: min-max] dans le contexte LLM et règle explicite dans le
prompt DAS pour éviter les hallucinations sur valeurs biologiques normales.
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 23:46:42 +01:00
dom
f44216b95b
feat: pass LLM hybride pour DAS + interface admin référentiels RAG
...
Chantier 1 — Extraction DAS par LLM :
- Nouveau prompt expert DIM dans rag_search.py (extract_das_llm)
- Phase 4 dans cim10_extractor.py : détection DAS supplémentaires avant enrichissement RAG
- Cache persistant (clé hash du texte), validation CIM-10, déduplication
- Activé uniquement avec use_rag=True (--no-rag le désactive)
Chantier 2 — Admin référentiels :
- Config : REFERENTIELS_DIR, UPLOAD_MAX_SIZE_MB, ALLOWED_EXTENSIONS
- Chunking générique (PDF/CSV/Excel/TXT) + ajout incrémental FAISS dans rag_index.py
- ReferentielManager CRUD dans viewer/referentiels.py
- 5 routes Flask (listing, upload, indexation, suppression, rebuild)
- Template admin avec tableau interactif + lien sidebar
Fix : if cache → if cache is not None (OllamaCache vide évaluait à False)
410 tests passent (27 nouveaux, 0 régression).
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 23:12:39 +01:00
dom
a58398f5d4
feat: cache Ollama + parallélisation ThreadPool + filtrage DAS renforcé + modules GHM/CPAM/export RUM
...
- Cache persistant JSON thread-safe pour les résultats Ollama (invalidation par modèle)
- Parallélisation des appels Ollama (ThreadPoolExecutor, 2 workers)
- 6 nouvelles règles de filtrage DAS parasites (doublons, ponctuation, OCR, labo, fragments)
- Client Ollama centralisé (mode JSON natif + retry)
- Module GHM (estimation CMD/sévérité)
- Module contrôle CPAM (parser + contre-argumentation RAG)
- Export RUM (format RSS)
- Viewer enrichi (détail dossier)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 13:44:34 +01:00
dom
a00e5f1147
feat: découpage PDFs multi-dossiers (Trackare multi-épisodes, CRH concaténés)
...
Ajoute une étape de splitting entre extraction texte et parsing. Chaque chunk
est traité indépendamment par le pipeline existant, avec suffixe _partN en sortie.
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 09:08:37 +01:00
dom
86d7ec5ea4
feat: mode JSON natif Ollama + modèle gemma3:12b + retry
...
- Ajout format:"json" dans l'appel API Ollama (force sortie JSON valide)
- Prompt restructuré : raisonnement en champs JSON structurés
(analyse_clinique, codes_candidats, discrimination, regle_pmsi)
- Parser simplifié : json.loads direct + reconstitution du raisonnement
- Suppression du marqueur ###RESULT### (obsolète avec mode JSON)
- Retry automatique (1 tentative) si parsing échoue
- Stripping des blocs markdown ```json pour compatibilité multi-modèles
- num_predict 1200→2500, modèle gemma3:12b (tient en 12Go VRAM)
- Résultat : 0% échec parsing (était 11% avant)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 02:19:09 +01:00
dom
31c29078a1
feat: filtrage des DAS parasites (artefacts OCR trackare)
...
Nouveau module das_filter.py avec 7 règles de rejet (trop court, chiffres,
lettre+chiffres OCR, mots concaténés/répétés, fragments non-médicaux) +
nettoyage newlines/ponctuation. Filtrage appliqué aux 3 sources de DAS :
trackare, regex et edsnlp. 31 tests unitaires.
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 17:48:25 +01:00
dom
86a26b9f8c
feat: durées en minutes + feedback visuel du retraitement
...
- Filtre format_duration : affiche les temps en min/s au lieu de secondes brutes
- Bouton reprocess : spinner animé, compteur temps réel, confirmation immédiate
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 17:18:03 +01:00
dom
9d07894c6f
feat: Phase 4 — viewer enrichi, non-cumul CCAM, fusion multi-PDFs + rebuild FAISS (21 141 vecteurs)
...
- Viewer : badges compteurs (DAS, actes, alertes, CMA), raisonnement LLM pliable, regroupement CCAM, navigation patient, alertes NON-CUMUL en rouge
- Non-cumul CCAM : 3 règles heuristiques (même base, même regroupement/jour, paires incompatibles)
- Fusion multi-PDFs : merge_dossiers() avec priorité Trackare, spécificité CIM-10, déduplication, champ source_files
- Index FAISS reconstruit : 21 141 vecteurs (CCAM dict 8 257 + CIM-10 alpha 306)
- 192 tests unitaires passent
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 12:43:34 +01:00
dom
7e69f994b0
feat: dictionnaire CCAM complet (8 257 codes) + index FAISS enrichi + validation actes
...
Phase 2 (CCAM) :
- Nouveau src/medical/ccam_dict.py : build depuis CCAM_V81.xls via xlrd, lookup 3 niveaux, validation codes
- Intégration dans l'extracteur : fallback ccam_lookup + _validate_ccam() avec alertes
- CLI : --build-ccam-dict, --rebuild-index
Phase 3 (FAISS) :
- Chunks CCAM depuis le dictionnaire JSON (priorité sur le PDF)
- Chunks CIM-10 index alphabétique (terme → code)
- Priorisation cim10_alpha dans la recherche RAG
Viewer : endpoint reprocess + bloc scripts
Tests : 8 tests CCAM + tests raisonnement RAG (161 passed)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 11:41:39 +01:00
dom
9df4465fef
feat: règles métier T2A Phase 1 — exclusions diagnostiques, sévérité CMA et alertes codage
...
Ajout des règles d'exclusion symptôme (R00-R99) vs diagnostic précis (Chapitres I-XIV),
détection heuristique de sévérité CMA sur 25 racines CIM-10, et affichage des alertes
de codage dans le viewer Flask. 153 tests, 0 régression.
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 08:53:14 +01:00
dom
12f4479cd2
feat: dictionnaire CIM-10 complet (10 893 codes) + robustesse regex
...
- Nouveau module cim10_dict.py : extraction depuis metadata.json FAISS,
lookup intelligent avec normalisation Unicode (accents, trémas, apostrophes)
- cim10_extractor : _lookup_cim10 utilise le dictionnaire complet,
_find_dp normalisé, _find_das élargi à 20 patterns (cardio, métabo,
infectieux, rénal...), biologie +6 tests (TGO/TGP, Hb, créatinine),
traitements sans limite de lignes
- document_classifier : scoring pondéré, classify_with_confidence(), scan 5000 chars
- CLI --build-dict pour regénérer data/cim10_dict.json
- 32 nouveaux tests unitaires (124 total, 0 échec)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 08:09:32 +01:00
dom
4d6fbef2b9
feat: ajout RAG CIM-10 avec FAISS + Ollama
...
Implémente un système RAG (Retrieval Augmented Generation) qui indexe
les documents de référence ATIH (CIM-10 FR 2026, Guide Métho MCO,
CCAM PMSI) et utilise Ollama (mistral-small3.2:24b) pour justifier
et valider le codage CIM-10 des diagnostics.
- Nouveaux modèles Pydantic : RAGSource, Diagnostic étendu (confidence,
justification, sources_rag) — rétrocompatible
- Module rag_index.py : chunking des 3 PDFs, embedding sentence-camembert-large,
index FAISS IndexFlatIP (3630 vecteurs)
- Module rag_search.py : recherche FAISS + appel Ollama avec fallback double
- Flag CLI --no-rag pour désactiver l'enrichissement RAG
- 18 nouveaux tests (88/88 passent)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-10 17:47:08 +01:00
dom
4a12cd2676
feat: pipeline T2A - anonymisation, extraction CIM-10 et intégration edsnlp
...
Pipeline complet de traitement de documents médicaux PDF :
- Extraction texte (pdfplumber) et classification (Trackare/CRH)
- Anonymisation multi-couche (regex + NER CamemBERT + sweep)
- Extraction médicale CIM-10 hybride : edsnlp (AP-HP) enrichit les
diagnostics, médicaments (codes ATC via Romedi) et négation,
avec fallback regex pour les patterns spécifiques
- Fix sentencepiece pinné à <0.2.0 pour compatibilité CamemBERT
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-10 15:24:12 +01:00