7.1 KiB
Guide de test humain — Compétences batch 1
Date : 2026-06-01 Auteur : Qwen Objectif : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.
Prérequis généraux
| Élément | Vérification |
|---|---|
| Dashboard web actif | http://<ip>:3000 → page Knowledge Base visible |
| Streaming server actif | http://<ip>:5005 (le dashboard s'y connecte) |
| Agent Windows connecté | La machine DESKTOP-58D5CAC_windows apparaît dans le dashboard |
| Compétences visibles | 3 compétences candidate dans la Knowledge Base |
Test 1 — key_win_r_wait_explorer_exe (Win+R → Exécuter)
Ce que Léa va faire
Appuyer sur Win+R et attendre que la fenêtre Exécuter apparaisse.
État initial requis
- ✅ Bureau Windows visible
- ✅ Aucun dialogue Exécuter ouvert (ferme-le s'il est ouvert)
- ✅
explorer.exetourne (toujours le cas sur Windows)
Procédure
- Ouvre le dashboard → onglet Knowledge Base
- Trouve la ligne
key_win_r_wait_explorer_exe - Clique Tester
- Une modale s'ouvre, le replay se lance
- Pause before : la modale dit "Prépare le test supervisé..." → clique Continuer le test
- Léa envoie
Win+Rautomatiquement - La fenêtre Exécuter doit apparaître en ~1-2 secondes
- Pause after : la modale dit "Valide le résultat..." → 3 boutons apparaissent
Ce que tu dois voir
- La fenêtre Exécuter s'ouvre et passe au premier plan
- La modale affiche "Valide le résultat de la compétence..."
Comment juger
| Verdict | Quand |
|---|---|
| Valide ✅ | La fenêtre Exécuter apparaît et est au premier plan |
| Invalide ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre |
| Incertain ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) |
Gap connu
Si le dialogue Exécuter était déjà ouvert avant le test, le succès est un faux positif. Le YAML a un
t2_known_gapdocumenté :run_dialog_preexisting_false_positive. Vérifie l'absence du dialogue avant de cliquer Continuer.
Test 2 — key_ctrl_s_wait_notepad_exe (Ctrl+S → Enregistrer sous)
Ce que Léa va faire
Appuyer sur Ctrl+S et attendre que le dialogue Enregistrer sous apparaisse.
État initial requis
- ✅ Bloc-notes (Notepad) ouvert avec un document
- ✅ Document non enregistré et modifié (le titre doit contenir un astérisque
*, ex:Sans titre * – Bloc-notes) - ✅ Aucun dialogue "Enregistrer sous" déjà ouvert
Comment préparer
- Ouvre Bloc-notes (
notepad.exe) - Tape du texte au hasard
- Ne sauvegarde pas → le titre doit montrer
*(document modifié non sauvegardé)
Procédure
- Dashboard → Knowledge Base →
key_ctrl_s_wait_notepad_exe - Clique Tester
- Modale : "Prépare le test supervisé..." → clique Continuer le test
- Léa envoie
Ctrl+Sautomatiquement - Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
- Pause after : clique Valide / Invalide / Incertain
Ce que tu dois voir
- Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
- Bloc-notes reste ouvert en arrière-plan
Comment juger
| Verdict | Quand |
|---|---|
| Valide ✅ | Le dialogue "Enregistrer sous" apparaît |
| Invalide ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme |
| Incertain ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan |
Gap connu
save_as_requires_unsaved_notepad_document: si le document a déjà un chemin de sauvegarde,Ctrl+Ssauvegarde silencieusement sans ouvrir le dialogue. Le document doit être non enregistré.
Test 3 — key_alt_f4_wait_windowsterminal_exe (Alt+F4 → fermer fenêtre)
Ce que Léa va faire
Appuyer sur Alt+F4 pour fermer la fenêtre Bloc-notes courante.
État initial requis
- ✅ Bloc-notes ouvert avec un fichier (peut être enregistré ou non)
- ✅ Bloc-notes au premier plan
- ⚠️ Si le document est modifié et non sauvegardé, un dialogue de confirmation peut apparaître ("Voulez-vous enregistrer ?")
Procédure
- Ouvre Bloc-notes avec un fichier
- Mets Bloc-notes au premier plan
- Dashboard → Knowledge Base →
key_alt_f4_wait_windowsterminal_exe - Clique Tester
- Modale : "Prépare le test supervisé..." → clique Continuer le test
- Léa envoie
Alt+F4automatiquement - Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
- Pause after : clique Valide / Invalide / Incertain
Ce que tu dois voir
- Bloc-notes se ferme
- La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan
Comment juger
| Verdict | Quand |
|---|---|
| Valide ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus |
| Invalide ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît |
| Incertain ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète |
Gap connu — ⚠️ IMPORTANT
alt_f4_confirmation_dialog_not_covered: lesuccess_markeractuel attendC:\Windows\system32\cmd.exe/WindowsTerminal.exeaprès fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). Ce n'est pas le bon marqueur de succès général. Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.
Conséquence : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique Incertain — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.
Résumé des verdicts
Après chaque test, le dashboard enregistre le verdict dans data/competence_verdicts/verdicts.jsonl. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en stable nécessite 3 succès indépendants.
| Compétence | Verdict | Observations |
|---|---|---|
key_win_r_wait_explorer_exe |
||
key_ctrl_s_wait_notepad_exe |
||
key_alt_f4_wait_windowsterminal_exe |
Questions fréquentes
Q : Et si la modale reste bloquée sur "Lancement du replay..." ?
R : Vérifie que l'agent Windows est connecté et que le streaming server (:5005) tourne. Ferme la modale et recommence.
Q : Et si le replay envoie les touches mais que rien ne se passe ? R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.
Q : Puis-je tester plusieurs fois la même compétence ?
R : Oui. Chaque test génère un nouveau verdict. Pour la promotion candidate → stable, il faut 3 succès avec 3 contextes distincts.
Q : Que se passe-t-il si je clique "Invalide" ?
R : Le verdict est enregistré comme invalid. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag regression_suspected sera activé.
Auteur : Qwen