feat(evaluation): add LeaBench model prompt packs

2026-05-24 21:53:24 +02:00
parent ea1f57afb1
commit 054279feb4
3 changed files with 151 additions and 0 deletions
--- a/benchmarks/computer_use/README.md
+++ b/benchmarks/computer_use/README.md
@@ -40,6 +40,15 @@ python3 tools/lea_bench.py \
  --write-template benchmarks/computer_use/predictions/manual_template.jsonl
 ```

+Generer un pack de prompts modele :
+
+```bash
+python3 tools/lea_bench.py \
+  --cases benchmarks/computer_use/cases/notepad_replay_failures_2026-05-24.jsonl \
+  --repo-root . \
+  --write-prompt-pack benchmarks/computer_use/prompts/notepad_model_prompts.jsonl
+```
+
 Scorer des predictions :

 ```bash
@@ -58,4 +67,7 @@ Ce bench evite de choisir un modele sur impression. On mesure :
 - s'il produit des clics dangereux ;
 - sa latence et son cout quand un adaptateur modele sera branche.

+Le pack de prompts donne la meme entree a tous les modeles. Il ne contient pas
+`expectation` ni `click_region`, pour eviter de fuiter la reponse attendue.
+
 Le banc Notepad est le premier jeu. Il doit ensuite etre etendu a Easily et aux bugs NoMachine.