dom
aa397d5360
feat: configuration externalisée via .env + audit requirements
...
- Externalise 13 variables de config via python-dotenv (chemins PDF,
modèles Ollama/embedding/NER, FINESS, seuils) avec défauts identiques
- Centralise EMBEDDING_MODEL dans config.py (était hardcodé en 3 endroits)
- Ajoute .env.example documenté et .env au .gitignore
- Ajoute openpyxl et pandas manquants au requirements.txt
- Ajoute data/referentiels au mkdir de run.sh
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-13 19:46:33 +01:00
dom
f44216b95b
feat: pass LLM hybride pour DAS + interface admin référentiels RAG
...
Chantier 1 — Extraction DAS par LLM :
- Nouveau prompt expert DIM dans rag_search.py (extract_das_llm)
- Phase 4 dans cim10_extractor.py : détection DAS supplémentaires avant enrichissement RAG
- Cache persistant (clé hash du texte), validation CIM-10, déduplication
- Activé uniquement avec use_rag=True (--no-rag le désactive)
Chantier 2 — Admin référentiels :
- Config : REFERENTIELS_DIR, UPLOAD_MAX_SIZE_MB, ALLOWED_EXTENSIONS
- Chunking générique (PDF/CSV/Excel/TXT) + ajout incrémental FAISS dans rag_index.py
- ReferentielManager CRUD dans viewer/referentiels.py
- 5 routes Flask (listing, upload, indexation, suppression, rebuild)
- Template admin avec tableau interactif + lien sidebar
Fix : if cache → if cache is not None (OllamaCache vide évaluait à False)
410 tests passent (27 nouveaux, 0 régression).
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-12 23:12:39 +01:00
dom
931b6c5d1c
feat: embeddings sur GPU (CUDA) pour l'indexation et la recherche RAG
...
Détection automatique GPU/CPU avec fallback. Index FAISS reconstruit
en 1min (GPU) au lieu de 16min (CPU).
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 23:42:46 +01:00
dom
7e69f994b0
feat: dictionnaire CCAM complet (8 257 codes) + index FAISS enrichi + validation actes
...
Phase 2 (CCAM) :
- Nouveau src/medical/ccam_dict.py : build depuis CCAM_V81.xls via xlrd, lookup 3 niveaux, validation codes
- Intégration dans l'extracteur : fallback ccam_lookup + _validate_ccam() avec alertes
- CLI : --build-ccam-dict, --rebuild-index
Phase 3 (FAISS) :
- Chunks CCAM depuis le dictionnaire JSON (priorité sur le PDF)
- Chunks CIM-10 index alphabétique (terme → code)
- Priorisation cim10_alpha dans la recherche RAG
Viewer : endpoint reprocess + bloc scripts
Tests : 8 tests CCAM + tests raisonnement RAG (161 passed)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-11 11:41:39 +01:00
dom
4d6fbef2b9
feat: ajout RAG CIM-10 avec FAISS + Ollama
...
Implémente un système RAG (Retrieval Augmented Generation) qui indexe
les documents de référence ATIH (CIM-10 FR 2026, Guide Métho MCO,
CCAM PMSI) et utilise Ollama (mistral-small3.2:24b) pour justifier
et valider le codage CIM-10 des diagnostics.
- Nouveaux modèles Pydantic : RAGSource, Diagnostic étendu (confidence,
justification, sources_rag) — rétrocompatible
- Module rag_index.py : chunking des 3 PDFs, embedding sentence-camembert-large,
index FAISS IndexFlatIP (3630 vecteurs)
- Module rag_search.py : recherche FAISS + appel Ollama avec fallback double
- Flag CLI --no-rag pour désactiver l'enrichissement RAG
- 18 nouveaux tests (88/88 passent)
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-02-10 17:47:08 +01:00