# Guide de test humain — Compétences batch 1 **Date** : 2026-06-01 **Auteur** : Qwen **Objectif** : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat. --- ## Prérequis généraux | Élément | Vérification | |---------|-------------| | Dashboard web actif | `http://:3000` → page Knowledge Base visible | | Streaming server actif | `http://:5005` (le dashboard s'y connecte) | | Agent Windows connecté | La machine `DESKTOP-58D5CAC_windows` apparaît dans le dashboard | | Compétences visibles | 3 compétences `candidate` dans la Knowledge Base | --- ## Test 1 — `key_win_r_wait_explorer_exe` (Win+R → Exécuter) ### Ce que Léa va faire Appuyer sur `Win+R` et attendre que la fenêtre **Exécuter** apparaisse. ### État initial requis - ✅ Bureau Windows visible - ✅ **Aucun** dialogue Exécuter ouvert (ferme-le s'il est ouvert) - ✅ `explorer.exe` tourne (toujours le cas sur Windows) ### Procédure 1. Ouvre le dashboard → onglet **Knowledge Base** 2. Trouve la ligne `key_win_r_wait_explorer_exe` 3. Clique **Tester** 4. Une modale s'ouvre, le replay se lance 5. **Pause before** : la modale dit "Prépare le test supervisé..." → clique **Continuer le test** 6. Léa envoie `Win+R` automatiquement 7. La fenêtre Exécuter doit apparaître en ~1-2 secondes 8. **Pause after** : la modale dit "Valide le résultat..." → 3 boutons apparaissent ### Ce que tu dois voir - La fenêtre Exécuter s'ouvre et passe au premier plan - La modale affiche "Valide le résultat de la compétence..." ### Comment juger | Verdict | Quand | |---------|-------| | **Valide** ✅ | La fenêtre Exécuter apparaît et est au premier plan | | **Invalide** ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre | | **Incertain** ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) | ### Gap connu > Si le dialogue Exécuter était **déjà ouvert** avant le test, le succès est un faux positif. Le YAML a un `t2_known_gap` documenté : `run_dialog_preexisting_false_positive`. **Vérifie l'absence du dialogue avant de cliquer Continuer.** --- ## Test 2 — `key_ctrl_s_wait_notepad_exe` (Ctrl+S → Enregistrer sous) ### Ce que Léa va faire Appuyer sur `Ctrl+S` et attendre que le dialogue **Enregistrer sous** apparaisse. ### État initial requis - ✅ **Bloc-notes (Notepad) ouvert** avec un document - ✅ Document **non enregistré** et **modifié** (le titre doit contenir un astérisque `*`, ex: `Sans titre * – Bloc-notes`) - ✅ Aucun dialogue "Enregistrer sous" déjà ouvert ### Comment préparer 1. Ouvre Bloc-notes (`notepad.exe`) 2. Tape du texte au hasard 3. **Ne sauvegarde pas** → le titre doit montrer `*` (document modifié non sauvegardé) ### Procédure 1. Dashboard → Knowledge Base → `key_ctrl_s_wait_notepad_exe` 2. Clique **Tester** 3. Modale : "Prépare le test supervisé..." → clique **Continuer le test** 4. Léa envoie `Ctrl+S` automatiquement 5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes 6. **Pause after** : clique Valide / Invalide / Incertain ### Ce que tu dois voir - Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan - Bloc-notes reste ouvert en arrière-plan ### Comment juger | Verdict | Quand | |---------|-------| | **Valide** ✅ | Le dialogue "Enregistrer sous" apparaît | | **Invalide** ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme | | **Incertain** ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan | ### Gap connu > `save_as_requires_unsaved_notepad_document` : si le document a déjà un chemin de sauvegarde, `Ctrl+S` sauvegarde silencieusement sans ouvrir le dialogue. **Le document doit être non enregistré.** --- ## Test 3 — `key_alt_f4_wait_windowsterminal_exe` (Alt+F4 → fermer fenêtre) ### Ce que Léa va faire Appuyer sur `Alt+F4` pour fermer la fenêtre Bloc-notes courante. ### État initial requis - ✅ **Bloc-notes ouvert** avec un fichier (peut être enregistré ou non) - ✅ Bloc-notes au **premier plan** - ⚠️ Si le document est modifié et non sauvegardé, un **dialogue de confirmation** peut apparaître ("Voulez-vous enregistrer ?") ### Procédure 1. Ouvre Bloc-notes avec un fichier 2. Mets Bloc-notes au premier plan 3. Dashboard → Knowledge Base → `key_alt_f4_wait_windowsterminal_exe` 4. Clique **Tester** 5. Modale : "Prépare le test supervisé..." → clique **Continuer le test** 6. Léa envoie `Alt+F4` automatiquement 7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation) 8. **Pause after** : clique Valide / Invalide / Incertain ### Ce que tu dois voir - Bloc-notes se ferme - La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan ### Comment juger | Verdict | Quand | |---------|-------| | **Valide** ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus | | **Invalide** ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît | | **Incertain** ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète | ### Gap connu — ⚠️ IMPORTANT > `alt_f4_confirmation_dialog_not_covered` : le `success_marker` actuel attend `C:\Windows\system32\cmd.exe` / `WindowsTerminal.exe` après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). **Ce n'est pas le bon marqueur de succès général.** Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi. **Conséquence** : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique **Incertain** — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique. --- ## Résumé des verdicts Après chaque test, le dashboard enregistre le verdict dans `data/competence_verdicts/verdicts.jsonl`. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en `stable` nécessite 3 succès indépendants. | Compétence | Verdict | Observations | |-----------|---------|-------------| | `key_win_r_wait_explorer_exe` | | | | `key_ctrl_s_wait_notepad_exe` | | | | `key_alt_f4_wait_windowsterminal_exe` | | | --- ## Questions fréquentes **Q : Et si la modale reste bloquée sur "Lancement du replay..." ?** R : Vérifie que l'agent Windows est connecté et que le streaming server (`:5005`) tourne. Ferme la modale et recommence. **Q : Et si le replay envoie les touches mais que rien ne se passe ?** R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application. **Q : Puis-je tester plusieurs fois la même compétence ?** R : Oui. Chaque test génère un nouveau verdict. Pour la promotion `candidate → stable`, il faut 3 succès avec 3 contextes distincts. **Q : Que se passe-t-il si je clique "Invalide" ?** R : Le verdict est enregistré comme `invalid`. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag `regression_suspected` sera activé. --- *Auteur : Qwen*