165 lines
7.1 KiB
Markdown
165 lines
7.1 KiB
Markdown
# Guide de test humain — Compétences batch 1
|
||
|
||
**Date** : 2026-06-01
|
||
**Auteur** : Qwen
|
||
**Objectif** : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.
|
||
|
||
---
|
||
|
||
## Prérequis généraux
|
||
|
||
| Élément | Vérification |
|
||
|---------|-------------|
|
||
| Dashboard web actif | `http://<ip>:3000` → page Knowledge Base visible |
|
||
| Streaming server actif | `http://<ip>:5005` (le dashboard s'y connecte) |
|
||
| Agent Windows connecté | La machine `DESKTOP-58D5CAC_windows` apparaît dans le dashboard |
|
||
| Compétences visibles | 3 compétences `candidate` dans la Knowledge Base |
|
||
|
||
---
|
||
|
||
## Test 1 — `key_win_r_wait_explorer_exe` (Win+R → Exécuter)
|
||
|
||
### Ce que Léa va faire
|
||
Appuyer sur `Win+R` et attendre que la fenêtre **Exécuter** apparaisse.
|
||
|
||
### État initial requis
|
||
- ✅ Bureau Windows visible
|
||
- ✅ **Aucun** dialogue Exécuter ouvert (ferme-le s'il est ouvert)
|
||
- ✅ `explorer.exe` tourne (toujours le cas sur Windows)
|
||
|
||
### Procédure
|
||
1. Ouvre le dashboard → onglet **Knowledge Base**
|
||
2. Trouve la ligne `key_win_r_wait_explorer_exe`
|
||
3. Clique **Tester**
|
||
4. Une modale s'ouvre, le replay se lance
|
||
5. **Pause before** : la modale dit "Prépare le test supervisé..." → clique **Continuer le test**
|
||
6. Léa envoie `Win+R` automatiquement
|
||
7. La fenêtre Exécuter doit apparaître en ~1-2 secondes
|
||
8. **Pause after** : la modale dit "Valide le résultat..." → 3 boutons apparaissent
|
||
|
||
### Ce que tu dois voir
|
||
- La fenêtre Exécuter s'ouvre et passe au premier plan
|
||
- La modale affiche "Valide le résultat de la compétence..."
|
||
|
||
### Comment juger
|
||
|
||
| Verdict | Quand |
|
||
|---------|-------|
|
||
| **Valide** ✅ | La fenêtre Exécuter apparaît et est au premier plan |
|
||
| **Invalide** ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre |
|
||
| **Incertain** ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) |
|
||
|
||
### Gap connu
|
||
> Si le dialogue Exécuter était **déjà ouvert** avant le test, le succès est un faux positif. Le YAML a un `t2_known_gap` documenté : `run_dialog_preexisting_false_positive`. **Vérifie l'absence du dialogue avant de cliquer Continuer.**
|
||
|
||
---
|
||
|
||
## Test 2 — `key_ctrl_s_wait_notepad_exe` (Ctrl+S → Enregistrer sous)
|
||
|
||
### Ce que Léa va faire
|
||
Appuyer sur `Ctrl+S` et attendre que le dialogue **Enregistrer sous** apparaisse.
|
||
|
||
### État initial requis
|
||
- ✅ **Bloc-notes (Notepad) ouvert** avec un document
|
||
- ✅ Document **non enregistré** et **modifié** (le titre doit contenir un astérisque `*`, ex: `Sans titre * – Bloc-notes`)
|
||
- ✅ Aucun dialogue "Enregistrer sous" déjà ouvert
|
||
|
||
### Comment préparer
|
||
1. Ouvre Bloc-notes (`notepad.exe`)
|
||
2. Tape du texte au hasard
|
||
3. **Ne sauvegarde pas** → le titre doit montrer `*` (document modifié non sauvegardé)
|
||
|
||
### Procédure
|
||
1. Dashboard → Knowledge Base → `key_ctrl_s_wait_notepad_exe`
|
||
2. Clique **Tester**
|
||
3. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
|
||
4. Léa envoie `Ctrl+S` automatiquement
|
||
5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
|
||
6. **Pause after** : clique Valide / Invalide / Incertain
|
||
|
||
### Ce que tu dois voir
|
||
- Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
|
||
- Bloc-notes reste ouvert en arrière-plan
|
||
|
||
### Comment juger
|
||
|
||
| Verdict | Quand |
|
||
|---------|-------|
|
||
| **Valide** ✅ | Le dialogue "Enregistrer sous" apparaît |
|
||
| **Invalide** ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme |
|
||
| **Incertain** ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan |
|
||
|
||
### Gap connu
|
||
> `save_as_requires_unsaved_notepad_document` : si le document a déjà un chemin de sauvegarde, `Ctrl+S` sauvegarde silencieusement sans ouvrir le dialogue. **Le document doit être non enregistré.**
|
||
|
||
---
|
||
|
||
## Test 3 — `key_alt_f4_wait_windowsterminal_exe` (Alt+F4 → fermer fenêtre)
|
||
|
||
### Ce que Léa va faire
|
||
Appuyer sur `Alt+F4` pour fermer la fenêtre Bloc-notes courante.
|
||
|
||
### État initial requis
|
||
- ✅ **Bloc-notes ouvert** avec un fichier (peut être enregistré ou non)
|
||
- ✅ Bloc-notes au **premier plan**
|
||
- ⚠️ Si le document est modifié et non sauvegardé, un **dialogue de confirmation** peut apparaître ("Voulez-vous enregistrer ?")
|
||
|
||
### Procédure
|
||
1. Ouvre Bloc-notes avec un fichier
|
||
2. Mets Bloc-notes au premier plan
|
||
3. Dashboard → Knowledge Base → `key_alt_f4_wait_windowsterminal_exe`
|
||
4. Clique **Tester**
|
||
5. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
|
||
6. Léa envoie `Alt+F4` automatiquement
|
||
7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
|
||
8. **Pause after** : clique Valide / Invalide / Incertain
|
||
|
||
### Ce que tu dois voir
|
||
- Bloc-notes se ferme
|
||
- La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan
|
||
|
||
### Comment juger
|
||
|
||
| Verdict | Quand |
|
||
|---------|-------|
|
||
| **Valide** ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus |
|
||
| **Invalide** ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît |
|
||
| **Incertain** ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète |
|
||
|
||
### Gap connu — ⚠️ IMPORTANT
|
||
> `alt_f4_confirmation_dialog_not_covered` : le `success_marker` actuel attend `C:\Windows\system32\cmd.exe` / `WindowsTerminal.exe` après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). **Ce n'est pas le bon marqueur de succès général.** Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.
|
||
|
||
**Conséquence** : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique **Incertain** — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.
|
||
|
||
---
|
||
|
||
## Résumé des verdicts
|
||
|
||
Après chaque test, le dashboard enregistre le verdict dans `data/competence_verdicts/verdicts.jsonl`. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en `stable` nécessite 3 succès indépendants.
|
||
|
||
| Compétence | Verdict | Observations |
|
||
|-----------|---------|-------------|
|
||
| `key_win_r_wait_explorer_exe` | | |
|
||
| `key_ctrl_s_wait_notepad_exe` | | |
|
||
| `key_alt_f4_wait_windowsterminal_exe` | | |
|
||
|
||
---
|
||
|
||
## Questions fréquentes
|
||
|
||
**Q : Et si la modale reste bloquée sur "Lancement du replay..." ?**
|
||
R : Vérifie que l'agent Windows est connecté et que le streaming server (`:5005`) tourne. Ferme la modale et recommence.
|
||
|
||
**Q : Et si le replay envoie les touches mais que rien ne se passe ?**
|
||
R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.
|
||
|
||
**Q : Puis-je tester plusieurs fois la même compétence ?**
|
||
R : Oui. Chaque test génère un nouveau verdict. Pour la promotion `candidate → stable`, il faut 3 succès avec 3 contextes distincts.
|
||
|
||
**Q : Que se passe-t-il si je clique "Invalide" ?**
|
||
R : Le verdict est enregistré comme `invalid`. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag `regression_suspected` sera activé.
|
||
|
||
---
|
||
|
||
*Auteur : Qwen*
|