# Drop-in pour /etc/systemd/system/ollama.service.d/vram-policy.conf # # Politique VRAM RPA Vision V3 — RTX 5070 12 GB partagée avec InfiGUI. # # Le service `rpa-grounding` charge InfiGUI-G1-3B en permanence (~2.4 GB). # Pour éviter qu'Ollama charge plusieurs VLM en parallèle (qwen2.5vl:3b ET 7b) # et déborde, on limite à 1 modèle chargé à la fois. # # OLLAMA_MAX_LOADED_MODELS=1 : un seul modèle en VRAM Ollama. Si on demande # un autre modèle, l'ancien est déchargé automatiquement avant le nouveau. # En pratique, comme Dom fait RECORD ou REPLAY mais pas les deux en même # temps, le swap a lieu lors du changement de mode et coûte ~5s une seule fois. # # OLLAMA_KEEP_ALIVE=5m : un modèle inutilisé pendant 5 min est déchargé. # Bon compromis entre réactivité (warm start dans la session) et libération # VRAM (un mode oublié ne traîne pas). # # OLLAMA_NUM_PARALLEL=1 : une seule requête Ollama en parallèle. Évite la # contention GPU avec InfiGUI quand le pipeline appelle les deux backends # en cascade. # # Installation : # sudo mkdir -p /etc/systemd/system/ollama.service.d/ # sudo cp deploy/systemd/ollama-vram-policy.conf /etc/systemd/system/ollama.service.d/vram-policy.conf # sudo systemctl daemon-reload && sudo systemctl restart ollama [Service] Environment="OLLAMA_MAX_LOADED_MODELS=1" Environment="OLLAMA_KEEP_ALIVE=5m" Environment="OLLAMA_NUM_PARALLEL=1"