Backup état complet après enregistrement vidéo démo de bout en bout. À utiliser comme point de référence pour la consolidation post-démo. Changements majeurs de la session 18-19 mai : - AIVA-URGENCE : page autonome avec preset URL + auto-focus chain - Workflow Demo_urgence_3_db : merge linux_db + steps AIVA + pause humaine NoMachine - Bypass LLM (static_result / static_text) dans replay_engine pour démos déterministes sans appel Ollama - Fix api_stream:3013 — replay_paused au premier polling /next - dag_execute : lift duration_ms vers top-level pour wait runtime - NPM bypass auth /aiva-urgence/ via location ^~ (proxy_host/10.conf hors git) - scripts/cancel-replays.sh — workaround Stop VWB qui ne purge pas la queue Anchors visuels (468) forcés dans le commit pour garantir restorabilité. DB workflows actuelle + ~12 .bak DB de la journée incluses. Sujets identifiés pour consolidation post-démo (TODO) : 1. Bug VWB recapture anchor ne régénère pas le PNG 2. Léa client accumule état mémoire (restart périodique requis) 3. Stop VWB ne purge pas la queue serveur (lien manquant vers /replay/cancel) 4. Bug coord client mss tronqué 2560x60 → mapping Y cassé 5. delay_before/delay_after ignorés au runtime (fix partiel duration_ms) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
31 lines
1.4 KiB
Plaintext
31 lines
1.4 KiB
Plaintext
# Drop-in pour /etc/systemd/system/ollama.service.d/vram-policy.conf
|
|
#
|
|
# Politique VRAM RPA Vision V3 — RTX 5070 12 GB partagée avec InfiGUI.
|
|
#
|
|
# Le service `rpa-grounding` charge InfiGUI-G1-3B en permanence (~2.4 GB).
|
|
# Pour éviter qu'Ollama charge plusieurs VLM en parallèle (qwen2.5vl:3b ET 7b)
|
|
# et déborde, on limite à 1 modèle chargé à la fois.
|
|
#
|
|
# OLLAMA_MAX_LOADED_MODELS=1 : un seul modèle en VRAM Ollama. Si on demande
|
|
# un autre modèle, l'ancien est déchargé automatiquement avant le nouveau.
|
|
# En pratique, comme Dom fait RECORD ou REPLAY mais pas les deux en même
|
|
# temps, le swap a lieu lors du changement de mode et coûte ~5s une seule fois.
|
|
#
|
|
# OLLAMA_KEEP_ALIVE=5m : un modèle inutilisé pendant 5 min est déchargé.
|
|
# Bon compromis entre réactivité (warm start dans la session) et libération
|
|
# VRAM (un mode oublié ne traîne pas).
|
|
#
|
|
# OLLAMA_NUM_PARALLEL=1 : une seule requête Ollama en parallèle. Évite la
|
|
# contention GPU avec InfiGUI quand le pipeline appelle les deux backends
|
|
# en cascade.
|
|
#
|
|
# Installation :
|
|
# sudo mkdir -p /etc/systemd/system/ollama.service.d/
|
|
# sudo cp deploy/systemd/ollama-vram-policy.conf /etc/systemd/system/ollama.service.d/vram-policy.conf
|
|
# sudo systemctl daemon-reload && sudo systemctl restart ollama
|
|
|
|
[Service]
|
|
Environment="OLLAMA_MAX_LOADED_MODELS=1"
|
|
Environment="OLLAMA_KEEP_ALIVE=5m"
|
|
Environment="OLLAMA_NUM_PARALLEL=1"
|