Dom
0a02a6ec9c
tests / Lint (ruff + black) (push) Successful in 15s
tests / Tests unitaires (sans GPU) (push) Failing after 14s
tests / Tests sécurité (critique) (push) Has been skipped
feat(qw4): bench rigoureux LLM safety_checks → gemma4:latest par défaut
Bench 5 modèles × 5 scénarios × cold+warm sur RTX 5070 :
- gemma4:latest : warm 2.9s, JSON 92%, détection 46% → gagnant
- qwen2.5vl:7b : warm 6.6s, détection 23% (trop lent)
- qwen2.5vl:3b : warm 2.0s, détection 8% (vérifie pour vérifier)
- medgemma:4b : warm 0.5s, détection 0% (refuse de signaler) → mauvais
défaut initial, corrigé
- qwen3-vl:8b : 0% JSON valide (ignore format=json Ollama) → écarté
Modifications safety_checks_provider.py :
- RPA_SAFETY_CHECKS_LLM_MODEL défaut: medgemma:4b → gemma4:latest
- RPA_SAFETY_CHECKS_LLM_TIMEOUT_S défaut: 5 → 7 (warm 2.9s + marge)
Doc complète : docs/BENCH_SAFETY_CHECKS_2026-05-06.md
Script : tools/bench_safety_checks_models.py (reproductible, ~10-15 min)
Limite assumée : 46% de détection. À présenter en démo comme aide médecin,
pas certification. Amélioration V2 = prompt plus dirigé sur champs à vérifier.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-06 09:23:09 +02:00
..
2026-03-18 11:12:23 +01:00
2026-04-15 09:07:19 +02:00
2026-05-05 23:45:22 +02:00
2026-04-09 21:03:25 +02:00
2026-04-10 09:01:13 +02:00
2026-04-10 09:01:52 +02:00
2026-04-10 14:05:23 +02:00
2026-05-05 23:05:44 +02:00
2026-05-05 23:09:43 +02:00
2026-05-06 00:08:22 +02:00
2026-05-05 23:45:22 +02:00
2026-04-12 10:35:51 +02:00
2026-04-13 07:42:50 +02:00
2026-04-14 16:49:02 +02:00
2026-04-09 21:03:25 +02:00
2026-05-02 00:32:57 +02:00
2026-03-26 10:19:18 +01:00
2026-05-06 09:23:09 +02:00
2026-03-18 11:12:23 +01:00
2026-04-20 21:52:45 +02:00
2026-04-09 21:03:25 +02:00
2026-03-18 11:12:23 +01:00
2026-03-18 11:12:23 +01:00
2026-03-18 11:12:23 +01:00
2026-04-05 16:30:27 +02:00