feat(evaluation): add LeaBench model prompt packs

This commit is contained in:
Dom
2026-05-24 21:53:24 +02:00
parent ea1f57afb1
commit 054279feb4
3 changed files with 151 additions and 0 deletions

View File

@@ -40,6 +40,15 @@ python3 tools/lea_bench.py \
--write-template benchmarks/computer_use/predictions/manual_template.jsonl
```
Generer un pack de prompts modele :
```bash
python3 tools/lea_bench.py \
--cases benchmarks/computer_use/cases/notepad_replay_failures_2026-05-24.jsonl \
--repo-root . \
--write-prompt-pack benchmarks/computer_use/prompts/notepad_model_prompts.jsonl
```
Scorer des predictions :
```bash
@@ -58,4 +67,7 @@ Ce bench evite de choisir un modele sur impression. On mesure :
- s'il produit des clics dangereux ;
- sa latence et son cout quand un adaptateur modele sera branche.
Le pack de prompts donne la meme entree a tous les modeles. Il ne contient pas
`expectation` ni `click_region`, pour eviter de fuiter la reponse attendue.
Le banc Notepad est le premier jeu. Il doit ensuite etre etendu a Easily et aux bugs NoMachine.