feat(evaluation): add LeaBench model prompt packs
This commit is contained in:
@@ -40,6 +40,15 @@ python3 tools/lea_bench.py \
|
||||
--write-template benchmarks/computer_use/predictions/manual_template.jsonl
|
||||
```
|
||||
|
||||
Generer un pack de prompts modele :
|
||||
|
||||
```bash
|
||||
python3 tools/lea_bench.py \
|
||||
--cases benchmarks/computer_use/cases/notepad_replay_failures_2026-05-24.jsonl \
|
||||
--repo-root . \
|
||||
--write-prompt-pack benchmarks/computer_use/prompts/notepad_model_prompts.jsonl
|
||||
```
|
||||
|
||||
Scorer des predictions :
|
||||
|
||||
```bash
|
||||
@@ -58,4 +67,7 @@ Ce bench evite de choisir un modele sur impression. On mesure :
|
||||
- s'il produit des clics dangereux ;
|
||||
- sa latence et son cout quand un adaptateur modele sera branche.
|
||||
|
||||
Le pack de prompts donne la meme entree a tous les modeles. Il ne contient pas
|
||||
`expectation` ni `click_region`, pour eviter de fuiter la reponse attendue.
|
||||
|
||||
Le banc Notepad est le premier jeu. Il doit ensuite etre etendu a Easily et aux bugs NoMachine.
|
||||
|
||||
Reference in New Issue
Block a user