feat: re-ranking cross-encoder CPU pour la recherche RAG CPAM
- Nouveau singleton _get_reranker() : CrossEncoder ms-marco-MiniLM-L-6-v2 forcé sur CPU pour ne pas interférer avec Ollama sur GPU - Fonction _rerank() : re-classe les résultats FAISS via cross-encoder, conserve le score FAISS original dans score_faiss - Intégré dans search_similar_cpam() après déduplication, avant priorisation - Config RERANKER_MODEL externalisée via T2A_RERANKER_MODEL (.env) - Fix fallback CUDA OOM : rattrapage de torch.AcceleratorError en plus de torch.OutOfMemoryError Latence : ~7-12s (incluant chargement one-time du modèle ~80Mo). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@@ -64,6 +64,9 @@ CCAM_PDF = Path(os.environ.get("T2A_CCAM_PDF", "/home/dom/ai/aivanov_CIM/actuali
|
||||
|
||||
EMBEDDING_MODEL = os.environ.get("T2A_EMBEDDING_MODEL", "dangvantuan/sentence-camembert-large")
|
||||
|
||||
# --- Modèle de re-ranking (cross-encoder, CPU uniquement) ---
|
||||
|
||||
RERANKER_MODEL = os.environ.get("T2A_RERANKER_MODEL", "cross-encoder/ms-marco-MiniLM-L-6-v2")
|
||||
|
||||
# --- Modèles de données CIM-10 ---
|
||||
|
||||
|
||||
Reference in New Issue
Block a user