feat: monter OLLAMA_MAX_PARALLEL défaut à 4

Le défaut de 2 était sous-optimal pour la RTX 5070 (12 Go VRAM). Ollama gère la concurrence interne et queue les requêtes excédentaires. Un pool de 4 workers Python permet de mieux saturer le GPU sur les appels DAS/actes parallèles. Le .env peut toujours override cette valeur via OLLAMA_MAX_PARALLEL. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-08 14:17:24 +01:00
parent 355a33acde
commit f94d8496cb
1 changed files with 1 additions and 1 deletions
--- a/src/config.py
+++ b/src/config.py
@@ -60,7 +60,7 @@ OLLAMA_URL = os.environ.get("OLLAMA_URL", "http://localhost:11434")
 OLLAMA_MODEL = os.environ.get("OLLAMA_MODEL", "gemma3:27b")
 OLLAMA_TIMEOUT = int(os.environ.get("OLLAMA_TIMEOUT", "600"))
 OLLAMA_CACHE_PATH = BASE_DIR / "data" / "ollama_cache.json"
-OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "2"))
+OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "4"))
 # --- Modèles par rôle LLM ---