From f94d8496cb937b4b06589cef79750d33b45c79be Mon Sep 17 00:00:00 2001
From: dom <dom@local>
Date: Sun, 8 Mar 2026 14:17:24 +0100
Subject: [PATCH] =?UTF-8?q?feat:=20monter=20OLLAMA=5FMAX=5FPARALLEL=20d?=
 =?UTF-8?q?=C3=A9faut=20=C3=A0=204?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Le défaut de 2 était sous-optimal pour la RTX 5070 (12 Go VRAM).
Ollama gère la concurrence interne et queue les requêtes
excédentaires. Un pool de 4 workers Python permet de mieux
saturer le GPU sur les appels DAS/actes parallèles.

Le .env peut toujours override cette valeur via OLLAMA_MAX_PARALLEL.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 src/config.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/config.py b/src/config.py
index 738e581..1dde987 100644
--- a/src/config.py
+++ b/src/config.py
@@ -60,7 +60,7 @@ OLLAMA_URL = os.environ.get("OLLAMA_URL", "http://localhost:11434")
 OLLAMA_MODEL = os.environ.get("OLLAMA_MODEL", "gemma3:27b")
 OLLAMA_TIMEOUT = int(os.environ.get("OLLAMA_TIMEOUT", "600"))
 OLLAMA_CACHE_PATH = BASE_DIR / "data" / "ollama_cache.json"
-OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "2"))
+OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "4"))
 
 # --- Modèles par rôle LLM ---