From f94d8496cb937b4b06589cef79750d33b45c79be Mon Sep 17 00:00:00 2001 From: dom Date: Sun, 8 Mar 2026 14:17:24 +0100 Subject: [PATCH] =?UTF-8?q?feat:=20monter=20OLLAMA=5FMAX=5FPARALLEL=20d?= =?UTF-8?q?=C3=A9faut=20=C3=A0=204?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Le défaut de 2 était sous-optimal pour la RTX 5070 (12 Go VRAM). Ollama gère la concurrence interne et queue les requêtes excédentaires. Un pool de 4 workers Python permet de mieux saturer le GPU sur les appels DAS/actes parallèles. Le .env peut toujours override cette valeur via OLLAMA_MAX_PARALLEL. Co-Authored-By: Claude Opus 4.6 --- src/config.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/src/config.py b/src/config.py index 738e581..1dde987 100644 --- a/src/config.py +++ b/src/config.py @@ -60,7 +60,7 @@ OLLAMA_URL = os.environ.get("OLLAMA_URL", "http://localhost:11434") OLLAMA_MODEL = os.environ.get("OLLAMA_MODEL", "gemma3:27b") OLLAMA_TIMEOUT = int(os.environ.get("OLLAMA_TIMEOUT", "600")) OLLAMA_CACHE_PATH = BASE_DIR / "data" / "ollama_cache.json" -OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "2")) +OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "4")) # --- Modèles par rôle LLM ---