feat: configuration externalisée via .env + audit requirements

- Externalise 13 variables de config via python-dotenv (chemins PDF, modèles Ollama/embedding/NER, FINESS, seuils) avec défauts identiques - Centralise EMBEDDING_MODEL dans config.py (était hardcodé en 3 endroits) - Ajoute .env.example documenté et .env au .gitignore - Ajoute openpyxl et pandas manquants au requirements.txt - Ajoute data/referentiels au mkdir de run.sh Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-13 19:46:33 +01:00
parent c838d75174
commit aa397d5360
7 changed files with 55 additions and 18 deletions
--- a/src/medical/rag_index.py
+++ b/src/medical/rag_index.py
@@ -11,7 +11,7 @@ from typing import Optional

 import pdfplumber

-from ..config import RAG_INDEX_DIR, CIM10_PDF, GUIDE_METHODO_PDF, CCAM_PDF, CCAM_DICT_PATH, REFERENTIELS_DIR
+from ..config import RAG_INDEX_DIR, CIM10_PDF, GUIDE_METHODO_PDF, CCAM_PDF, CCAM_DICT_PATH, REFERENTIELS_DIR, EMBEDDING_MODEL

 logger = logging.getLogger(__name__)

@@ -426,8 +426,8 @@ def build_index(force: bool = False) -> None:
    # Embeddings — GPU si disponible
    import torch
    _device = "cuda" if torch.cuda.is_available() else "cpu"
-    logger.info("Chargement du modèle d'embedding dangvantuan/sentence-camembert-large (%s)...", _device)
-    model = SentenceTransformer("dangvantuan/sentence-camembert-large", device=_device)
+    logger.info("Chargement du modèle d'embedding %s (%s)...", EMBEDDING_MODEL, _device)
+    model = SentenceTransformer(EMBEDDING_MODEL, device=_device)
    model.max_seq_length = 512  # CamemBERT max position embeddings

    texts = [c.text[:2000] for c in all_chunks]  # Tronquer les chunks trop longs