rpa_vision_v3

Dom/rpa_vision_v3

Fork 0

Files

History

Dom 35fd6cf4c5

tests / Lint (ruff + black) (push) Successful in 14s

Details

tests / Tests unitaires (sans GPU) (push) Failing after 13s

Details

tests / Tests sécurité (critique) (push) Has been skipped

Details

test(e2e): harness replay reproductible — mock client Léa V1 contre serveur réel

Réduit le cycle debug d'un workflow de 1-2 min (replay manuel via
Windows + Léa V1 + maquette) à ~2-5s (mock client Linux contre
serveur de streaming localhost:5005). 30-60× plus rapide.

Architecture :
- tools/test_replay_e2e.py — harness CLI (~580 lignes), reproduit la
  chaîne réelle : VWB /api/v3/execute-windows → streaming /replay/raw
  → boucle /replay/next côté harness avec resolve_target sur un
  screenshot fixture → POST /replay/result. Pas de modification serveur.
- tests/e2e/test_urgence_aiva_demo.py — wrapper pytest (smoke).
- tests/e2e/urgence_aiva_demo_expected.yaml — référence générée par
  --export-expected, pour comparaison régression auto.
- pytest.ini — ajout du marqueur e2e.

Usage :
    python tools/test_replay_e2e.py --execution-mode autonomous --max-iter 120 --verbose
    python tools/test_replay_e2e.py --single-step 8 --shot <heartbeat>.png
    python tools/test_replay_e2e.py --expected tests/e2e/urgence_aiva_demo_expected.yaml
    pytest tests/e2e -v -m e2e

Sortie : tableau Markdown step × méthode × score × pos × status × diag.

Limitations connues (extensions post-démo) :
- Une seule fixture screenshot pour tout le replay → click_anchor réalistes
  échouent dès qu'on dépasse l'écran fixture. Carte step_id → fixture à venir.
- extract_text/table/t2a_decision exécutés côté serveur, observables mais
  pas modifiables.
- Pas de simulation screenshot_after → ReplayVerifier (Critic VLM) ne tourne pas.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-07 22:11:07 +02:00

bench_safety_checks_models.py

feat(qw4): bench rigoureux LLM safety_checks → gemma4:latest par défaut

2026-05-06 09:23:09 +02:00

benchmark_grounding.py

feat(grounding): pipeline centralisé + serveur UI-TARS transformers + nettoyage code mort

2026-04-25 17:48:18 +02:00

run_session_cleaner.sh

feat: session_cleaner — outil leger de nettoyage de sessions avant replay

2026-04-12 11:35:31 +02:00

session_cleaner.py

feat: journée 17 avril — tests E2E validés, dashboard fleet+audit, VWB bridge, cleaner C2