feat: monter OLLAMA_MAX_PARALLEL défaut à 4
Le défaut de 2 était sous-optimal pour la RTX 5070 (12 Go VRAM). Ollama gère la concurrence interne et queue les requêtes excédentaires. Un pool de 4 workers Python permet de mieux saturer le GPU sur les appels DAS/actes parallèles. Le .env peut toujours override cette valeur via OLLAMA_MAX_PARALLEL. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@@ -60,7 +60,7 @@ OLLAMA_URL = os.environ.get("OLLAMA_URL", "http://localhost:11434")
|
|||||||
OLLAMA_MODEL = os.environ.get("OLLAMA_MODEL", "gemma3:27b")
|
OLLAMA_MODEL = os.environ.get("OLLAMA_MODEL", "gemma3:27b")
|
||||||
OLLAMA_TIMEOUT = int(os.environ.get("OLLAMA_TIMEOUT", "600"))
|
OLLAMA_TIMEOUT = int(os.environ.get("OLLAMA_TIMEOUT", "600"))
|
||||||
OLLAMA_CACHE_PATH = BASE_DIR / "data" / "ollama_cache.json"
|
OLLAMA_CACHE_PATH = BASE_DIR / "data" / "ollama_cache.json"
|
||||||
OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "2"))
|
OLLAMA_MAX_PARALLEL = int(os.environ.get("OLLAMA_MAX_PARALLEL", "4"))
|
||||||
|
|
||||||
# --- Modèles par rôle LLM ---
|
# --- Modèles par rôle LLM ---
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user