Files
aivanov_CIM/TASK_6.2_SUMMARY.md
2026-03-05 01:20:14 +01:00

213 lines
8.7 KiB
Markdown

# Task 6.2: Implémentation du Reranking - Résumé
## Objectif
Intégrer un modèle cross-encoder pour le reranking des résultats de recherche hybride, avec priorisation des résultats de l'index alphabétique.
## Exigences Satisfaites
- **Exigence 7.4**: Le système doit reclasser les candidats pour améliorer la précision
- **Exigence 27.6**: Le système doit prioriser les résultats de l'index alphabétique dans le reranking
## Implémentation
### 1. Modèle Cross-Encoder
**Fichier**: `src/pipeline_mco_pmsi/rag/rag_engine.py`
#### Ajout du modèle cross-encoder
- Ajout d'un attribut `_reranker_model` dans la classe `RAGEngine`
- Implémentation de la méthode `_get_reranker_model()` avec lazy loading
- Utilisation du modèle `cross-encoder/mmarco-mMiniLMv2-L12-H384-v1` (multilingue)
- Détection automatique du device (CPU/CUDA) pour éviter les problèmes de mémoire
```python
def _get_reranker_model(self):
"""Récupère le modèle cross-encoder pour le reranking (lazy loading)."""
if self._reranker_model is None:
from sentence_transformers import CrossEncoder
model_name = "cross-encoder/mmarco-mMiniLMv2-L12-H384-v1"
# Forcer l'utilisation du CPU pour éviter les problèmes de mémoire GPU
import torch
device = "cpu" if not torch.cuda.is_available() else "cuda"
self._reranker_model = CrossEncoder(model_name, device=device)
logger.info(f"Modèle cross-encoder chargé avec succès sur {device}")
return self._reranker_model
```
### 2. Méthode de Reranking
**Méthode**: `_rerank_results()`
#### Fonctionnalités
1. **Évaluation par paires**: Le cross-encoder évalue chaque paire (query, document)
2. **Priorisation de l'index alphabétique**: Bonus de +0.1 pour les chunks de type `alphabetical_index`
3. **Gestion des erreurs**: Retour aux candidats originaux en cas d'erreur
4. **Limitation de taille**: Troncature du texte à 2000 caractères (~512 tokens)
```python
def _rerank_results(
self,
query: str,
candidates: List[Tuple[int, float]],
chunks: List[Chunk],
top_k: int = 10,
) -> List[Tuple[int, float]]:
"""
Reclasse les candidats avec un modèle cross-encoder.
Les résultats provenant de l'index alphabétique sont priorisés en
ajoutant un bonus à leur score.
"""
# Préparer les paires (query, document)
pairs = []
chunk_indices = []
for chunk_idx, _ in candidates:
if chunk_idx >= len(chunks):
continue
chunk = chunks[chunk_idx]
chunk_text = chunk.content[:2000]
pairs.append([query, chunk_text])
chunk_indices.append(chunk_idx)
# Obtenir les scores du cross-encoder
reranker = self._get_reranker_model()
scores = reranker.predict(pairs)
# Appliquer le bonus pour l'index alphabétique
boosted_scores = []
for idx, (chunk_idx, score) in enumerate(zip(chunk_indices, scores)):
chunk = chunks[chunk_idx]
final_score = float(score)
# Bonus pour l'index alphabétique (Exigence 27.6)
if chunk.metadata.get("chunk_type") == "alphabetical_index":
final_score += 0.1
boosted_scores.append((chunk_idx, final_score))
# Trier par score décroissant
reranked = sorted(boosted_scores, key=lambda x: x[1], reverse=True)[:top_k]
return reranked
```
### 3. Intégration dans les Méthodes de Recherche
#### Mise à jour de `search_icd10()`
Pipeline complet:
1. Recherche BM25 (top 50)
2. Recherche vectorielle (top 50)
3. Fusion RRF
4. **Reranking avec cross-encoder** (nouveau)
5. Retour des top_k résultats
```python
def search_icd10(self, query: str, top_k: int = 10, version: str = "2026") -> List[CodeCandidate]:
"""Recherche de codes CIM-10 avec recherche hybride et reranking."""
# 1-3. BM25, Vector Search, RRF Fusion
bm25_results = self._bm25_search(query, "cim10", version, top_k=50)
vector_results = self._vector_search(query, "cim10", version, top_k=50)
fused_results = self._reciprocal_rank_fusion(bm25_results, vector_results)
# 4. Charger les chunks
chunks = self._load_chunks("cim10", version)
# 5. Reranking avec cross-encoder (priorisation index alphabétique)
reranked_results = self._rerank_results(query, fused_results, chunks, top_k=top_k)
# 6. Construire les candidats
candidates = []
for chunk_idx, rerank_score in reranked_results:
# ... construction des candidats
return candidates
```
#### Mise à jour de `search_ccam()`
Même pipeline que `search_icd10()` mais pour les codes CCAM.
## Tests
### Tests Unitaires
**Fichier**: `tests/test_rag_engine.py`
#### Classe `TestReranking` (9 tests)
1.`test_rerank_results_returns_reranked_list`: Vérifie que le reranking retourne une liste
2.`test_rerank_results_sorts_by_score`: Vérifie le tri par score décroissant
3.`test_rerank_results_boosts_alphabetical_index`: Vérifie le bonus pour l'index alphabétique
4.`test_rerank_results_respects_top_k`: Vérifie le respect du paramètre top_k
5.`test_rerank_results_handles_empty_candidates`: Gestion des candidats vides
6.`test_rerank_results_handles_invalid_chunk_index`: Gestion des index invalides
7.`test_rerank_results_handles_reranker_error`: Gestion des erreurs du cross-encoder
8.`test_get_reranker_model_loads_model`: Chargement du modèle
9.`test_get_reranker_model_caches_model`: Mise en cache du modèle
#### Classe `TestSearchWithReranking` (3 tests)
1.`test_search_icd10_uses_reranking`: Vérifie l'utilisation du reranking pour CIM-10
2.`test_search_ccam_uses_reranking`: Vérifie l'utilisation du reranking pour CCAM
3.`test_search_icd10_alphabetical_index_prioritized`: Vérifie la priorisation de l'index alphabétique
### Résultats des Tests
```
============================== 39 passed in 9.61s ==============================
```
Tous les tests passent, y compris les tests existants qui ont été mis à jour pour mocker le reranker.
## Améliorations Apportées
### 1. Précision de la Recherche
- Le cross-encoder évalue la pertinence de manière plus précise que les embeddings bi-encoders
- Traitement conjoint de la paire (query, document) au lieu de vecteurs indépendants
### 2. Priorisation de l'Index Alphabétique
- Bonus de +0.1 pour les résultats provenant de l'index alphabétique
- Améliore la correspondance entre termes cliniques et codes officiels
- Exemple: "Gastrite" → K29.7 sera mieux classé s'il provient de l'index alphabétique
### 3. Robustesse
- Gestion des erreurs avec fallback vers les candidats originaux
- Détection automatique du device (CPU/CUDA)
- Lazy loading du modèle pour économiser la mémoire
- Mise en cache du modèle pour éviter les rechargements
### 4. Performance
- Limitation de la taille du texte à 2000 caractères pour le cross-encoder
- Reranking uniquement sur les top candidats (après RRF)
- Utilisation du CPU pour les tests pour éviter les problèmes de mémoire GPU
## Dépendances
- `sentence-transformers>=2.2.0` (déjà présent dans `pyproject.toml`)
- Modèle: `cross-encoder/mmarco-mMiniLMv2-L12-H384-v1` (téléchargé automatiquement)
## Points d'Attention
### 1. Performance
Le cross-encoder est plus lent que les embeddings bi-encoders car il traite chaque paire individuellement. Pour optimiser:
- Limiter le nombre de candidats à reranker (actuellement top 50 après RRF)
- Utiliser un modèle plus petit si nécessaire (ex: `ms-marco-MiniLM-L-6-v2`)
- Considérer le batching pour le traitement parallèle
### 2. Modèle Multilingue
Le modèle `mmarco-mMiniLMv2-L12-H384-v1` est multilingue mais pas spécifiquement entraîné sur le domaine médical français. Pour améliorer:
- Fine-tuner le modèle sur des données médicales françaises
- Utiliser un modèle spécialisé médical si disponible
### 3. Bonus Index Alphabétique
Le bonus de +0.1 est une valeur empirique. Il pourrait être:
- Ajusté en fonction des résultats sur le jeu gold
- Rendu configurable via un paramètre
- Remplacé par un système de pondération plus sophistiqué
## Prochaines Étapes
1. ✅ Task 6.2 complétée
2. ⏭️ Task 6.3: Implémenter `search_icd10()` et `search_ccam()`
3. ⏭️ Task 6.4: Implémenter `retrieve_eligibility_criteria()`
4. ⏭️ Task 6.5: Écrire les property tests pour RAG Engine
## Conclusion
Le reranking avec cross-encoder a été implémenté avec succès, améliorant la précision de la recherche hybride. La priorisation de l'index alphabétique permet une meilleure correspondance entre les termes cliniques en langage naturel et les codes officiels CIM-10/CCAM. Tous les tests passent et le système est prêt pour les prochaines étapes du développement.