docs: add POC specs, handoffs, and research notes
This commit is contained in:
164
docs/demo/test-humain-batch1.md
Normal file
164
docs/demo/test-humain-batch1.md
Normal file
@@ -0,0 +1,164 @@
|
||||
# Guide de test humain — Compétences batch 1
|
||||
|
||||
**Date** : 2026-06-01
|
||||
**Auteur** : Qwen
|
||||
**Objectif** : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.
|
||||
|
||||
---
|
||||
|
||||
## Prérequis généraux
|
||||
|
||||
| Élément | Vérification |
|
||||
|---------|-------------|
|
||||
| Dashboard web actif | `http://<ip>:3000` → page Knowledge Base visible |
|
||||
| Streaming server actif | `http://<ip>:5005` (le dashboard s'y connecte) |
|
||||
| Agent Windows connecté | La machine `DESKTOP-58D5CAC_windows` apparaît dans le dashboard |
|
||||
| Compétences visibles | 3 compétences `candidate` dans la Knowledge Base |
|
||||
|
||||
---
|
||||
|
||||
## Test 1 — `key_win_r_wait_explorer_exe` (Win+R → Exécuter)
|
||||
|
||||
### Ce que Léa va faire
|
||||
Appuyer sur `Win+R` et attendre que la fenêtre **Exécuter** apparaisse.
|
||||
|
||||
### État initial requis
|
||||
- ✅ Bureau Windows visible
|
||||
- ✅ **Aucun** dialogue Exécuter ouvert (ferme-le s'il est ouvert)
|
||||
- ✅ `explorer.exe` tourne (toujours le cas sur Windows)
|
||||
|
||||
### Procédure
|
||||
1. Ouvre le dashboard → onglet **Knowledge Base**
|
||||
2. Trouve la ligne `key_win_r_wait_explorer_exe`
|
||||
3. Clique **Tester**
|
||||
4. Une modale s'ouvre, le replay se lance
|
||||
5. **Pause before** : la modale dit "Prépare le test supervisé..." → clique **Continuer le test**
|
||||
6. Léa envoie `Win+R` automatiquement
|
||||
7. La fenêtre Exécuter doit apparaître en ~1-2 secondes
|
||||
8. **Pause after** : la modale dit "Valide le résultat..." → 3 boutons apparaissent
|
||||
|
||||
### Ce que tu dois voir
|
||||
- La fenêtre Exécuter s'ouvre et passe au premier plan
|
||||
- La modale affiche "Valide le résultat de la compétence..."
|
||||
|
||||
### Comment juger
|
||||
|
||||
| Verdict | Quand |
|
||||
|---------|-------|
|
||||
| **Valide** ✅ | La fenêtre Exécuter apparaît et est au premier plan |
|
||||
| **Invalide** ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre |
|
||||
| **Incertain** ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) |
|
||||
|
||||
### Gap connu
|
||||
> Si le dialogue Exécuter était **déjà ouvert** avant le test, le succès est un faux positif. Le YAML a un `t2_known_gap` documenté : `run_dialog_preexisting_false_positive`. **Vérifie l'absence du dialogue avant de cliquer Continuer.**
|
||||
|
||||
---
|
||||
|
||||
## Test 2 — `key_ctrl_s_wait_notepad_exe` (Ctrl+S → Enregistrer sous)
|
||||
|
||||
### Ce que Léa va faire
|
||||
Appuyer sur `Ctrl+S` et attendre que le dialogue **Enregistrer sous** apparaisse.
|
||||
|
||||
### État initial requis
|
||||
- ✅ **Bloc-notes (Notepad) ouvert** avec un document
|
||||
- ✅ Document **non enregistré** et **modifié** (le titre doit contenir un astérisque `*`, ex: `Sans titre * – Bloc-notes`)
|
||||
- ✅ Aucun dialogue "Enregistrer sous" déjà ouvert
|
||||
|
||||
### Comment préparer
|
||||
1. Ouvre Bloc-notes (`notepad.exe`)
|
||||
2. Tape du texte au hasard
|
||||
3. **Ne sauvegarde pas** → le titre doit montrer `*` (document modifié non sauvegardé)
|
||||
|
||||
### Procédure
|
||||
1. Dashboard → Knowledge Base → `key_ctrl_s_wait_notepad_exe`
|
||||
2. Clique **Tester**
|
||||
3. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
|
||||
4. Léa envoie `Ctrl+S` automatiquement
|
||||
5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
|
||||
6. **Pause after** : clique Valide / Invalide / Incertain
|
||||
|
||||
### Ce que tu dois voir
|
||||
- Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
|
||||
- Bloc-notes reste ouvert en arrière-plan
|
||||
|
||||
### Comment juger
|
||||
|
||||
| Verdict | Quand |
|
||||
|---------|-------|
|
||||
| **Valide** ✅ | Le dialogue "Enregistrer sous" apparaît |
|
||||
| **Invalide** ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme |
|
||||
| **Incertain** ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan |
|
||||
|
||||
### Gap connu
|
||||
> `save_as_requires_unsaved_notepad_document` : si le document a déjà un chemin de sauvegarde, `Ctrl+S` sauvegarde silencieusement sans ouvrir le dialogue. **Le document doit être non enregistré.**
|
||||
|
||||
---
|
||||
|
||||
## Test 3 — `key_alt_f4_wait_windowsterminal_exe` (Alt+F4 → fermer fenêtre)
|
||||
|
||||
### Ce que Léa va faire
|
||||
Appuyer sur `Alt+F4` pour fermer la fenêtre Bloc-notes courante.
|
||||
|
||||
### État initial requis
|
||||
- ✅ **Bloc-notes ouvert** avec un fichier (peut être enregistré ou non)
|
||||
- ✅ Bloc-notes au **premier plan**
|
||||
- ⚠️ Si le document est modifié et non sauvegardé, un **dialogue de confirmation** peut apparaître ("Voulez-vous enregistrer ?")
|
||||
|
||||
### Procédure
|
||||
1. Ouvre Bloc-notes avec un fichier
|
||||
2. Mets Bloc-notes au premier plan
|
||||
3. Dashboard → Knowledge Base → `key_alt_f4_wait_windowsterminal_exe`
|
||||
4. Clique **Tester**
|
||||
5. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
|
||||
6. Léa envoie `Alt+F4` automatiquement
|
||||
7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
|
||||
8. **Pause after** : clique Valide / Invalide / Incertain
|
||||
|
||||
### Ce que tu dois voir
|
||||
- Bloc-notes se ferme
|
||||
- La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan
|
||||
|
||||
### Comment juger
|
||||
|
||||
| Verdict | Quand |
|
||||
|---------|-------|
|
||||
| **Valide** ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus |
|
||||
| **Invalide** ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît |
|
||||
| **Incertain** ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète |
|
||||
|
||||
### Gap connu — ⚠️ IMPORTANT
|
||||
> `alt_f4_confirmation_dialog_not_covered` : le `success_marker` actuel attend `C:\Windows\system32\cmd.exe` / `WindowsTerminal.exe` après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). **Ce n'est pas le bon marqueur de succès général.** Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.
|
||||
|
||||
**Conséquence** : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique **Incertain** — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.
|
||||
|
||||
---
|
||||
|
||||
## Résumé des verdicts
|
||||
|
||||
Après chaque test, le dashboard enregistre le verdict dans `data/competence_verdicts/verdicts.jsonl`. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en `stable` nécessite 3 succès indépendants.
|
||||
|
||||
| Compétence | Verdict | Observations |
|
||||
|-----------|---------|-------------|
|
||||
| `key_win_r_wait_explorer_exe` | | |
|
||||
| `key_ctrl_s_wait_notepad_exe` | | |
|
||||
| `key_alt_f4_wait_windowsterminal_exe` | | |
|
||||
|
||||
---
|
||||
|
||||
## Questions fréquentes
|
||||
|
||||
**Q : Et si la modale reste bloquée sur "Lancement du replay..." ?**
|
||||
R : Vérifie que l'agent Windows est connecté et que le streaming server (`:5005`) tourne. Ferme la modale et recommence.
|
||||
|
||||
**Q : Et si le replay envoie les touches mais que rien ne se passe ?**
|
||||
R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.
|
||||
|
||||
**Q : Puis-je tester plusieurs fois la même compétence ?**
|
||||
R : Oui. Chaque test génère un nouveau verdict. Pour la promotion `candidate → stable`, il faut 3 succès avec 3 contextes distincts.
|
||||
|
||||
**Q : Que se passe-t-il si je clique "Invalide" ?**
|
||||
R : Le verdict est enregistré comme `invalid`. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag `regression_suspected` sera activé.
|
||||
|
||||
---
|
||||
|
||||
*Auteur : Qwen*
|
||||
Reference in New Issue
Block a user