# Drop-in pour /etc/systemd/system/ollama.service.d/vram-policy.conf
#
# Politique VRAM RPA Vision V3 — RTX 5070 12 GB partagée avec InfiGUI.
#
# Le service `rpa-grounding` charge InfiGUI-G1-3B en permanence (~2.4 GB).
# Pour éviter qu'Ollama charge plusieurs VLM en parallèle (qwen2.5vl:3b ET 7b)
# et déborde, on limite à 1 modèle chargé à la fois.
#
# OLLAMA_MAX_LOADED_MODELS=1 : un seul modèle en VRAM Ollama. Si on demande
#   un autre modèle, l'ancien est déchargé automatiquement avant le nouveau.
#   En pratique, comme Dom fait RECORD ou REPLAY mais pas les deux en même
#   temps, le swap a lieu lors du changement de mode et coûte ~5s une seule fois.
#
# OLLAMA_KEEP_ALIVE=5m : un modèle inutilisé pendant 5 min est déchargé.
#   Bon compromis entre réactivité (warm start dans la session) et libération
#   VRAM (un mode oublié ne traîne pas).
#
# OLLAMA_NUM_PARALLEL=1 : une seule requête Ollama en parallèle. Évite la
#   contention GPU avec InfiGUI quand le pipeline appelle les deux backends
#   en cascade.
#
# Installation :
#   sudo mkdir -p /etc/systemd/system/ollama.service.d/
#   sudo cp deploy/systemd/ollama-vram-policy.conf /etc/systemd/system/ollama.service.d/vram-policy.conf
#   sudo systemctl daemon-reload && sudo systemctl restart ollama

[Service]
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=5m"
Environment="OLLAMA_NUM_PARALLEL=1"