Files
rpa_vision_v3/docs/demo/test-humain-batch1.md

7.1 KiB
Raw Blame History

Guide de test humain — Compétences batch 1

Date : 2026-06-01 Auteur : Qwen Objectif : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.


Prérequis généraux

Élément Vérification
Dashboard web actif http://<ip>:3000 → page Knowledge Base visible
Streaming server actif http://<ip>:5005 (le dashboard s'y connecte)
Agent Windows connecté La machine DESKTOP-58D5CAC_windows apparaît dans le dashboard
Compétences visibles 3 compétences candidate dans la Knowledge Base

Test 1 — key_win_r_wait_explorer_exe (Win+R → Exécuter)

Ce que Léa va faire

Appuyer sur Win+R et attendre que la fenêtre Exécuter apparaisse.

État initial requis

  • Bureau Windows visible
  • Aucun dialogue Exécuter ouvert (ferme-le s'il est ouvert)
  • explorer.exe tourne (toujours le cas sur Windows)

Procédure

  1. Ouvre le dashboard → onglet Knowledge Base
  2. Trouve la ligne key_win_r_wait_explorer_exe
  3. Clique Tester
  4. Une modale s'ouvre, le replay se lance
  5. Pause before : la modale dit "Prépare le test supervisé..." → clique Continuer le test
  6. Léa envoie Win+R automatiquement
  7. La fenêtre Exécuter doit apparaître en ~1-2 secondes
  8. Pause after : la modale dit "Valide le résultat..." → 3 boutons apparaissent

Ce que tu dois voir

  • La fenêtre Exécuter s'ouvre et passe au premier plan
  • La modale affiche "Valide le résultat de la compétence..."

Comment juger

Verdict Quand
Valide La fenêtre Exécuter apparaît et est au premier plan
Invalide Rien ne se passe, ou une autre fenêtre s'ouvre
Incertain ⚠️ La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache)

Gap connu

Si le dialogue Exécuter était déjà ouvert avant le test, le succès est un faux positif. Le YAML a un t2_known_gap documenté : run_dialog_preexisting_false_positive. Vérifie l'absence du dialogue avant de cliquer Continuer.


Test 2 — key_ctrl_s_wait_notepad_exe (Ctrl+S → Enregistrer sous)

Ce que Léa va faire

Appuyer sur Ctrl+S et attendre que le dialogue Enregistrer sous apparaisse.

État initial requis

  • Bloc-notes (Notepad) ouvert avec un document
  • Document non enregistré et modifié (le titre doit contenir un astérisque *, ex: Sans titre * Bloc-notes)
  • Aucun dialogue "Enregistrer sous" déjà ouvert

Comment préparer

  1. Ouvre Bloc-notes (notepad.exe)
  2. Tape du texte au hasard
  3. Ne sauvegarde pas → le titre doit montrer * (document modifié non sauvegardé)

Procédure

  1. Dashboard → Knowledge Base → key_ctrl_s_wait_notepad_exe
  2. Clique Tester
  3. Modale : "Prépare le test supervisé..." → clique Continuer le test
  4. Léa envoie Ctrl+S automatiquement
  5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
  6. Pause after : clique Valide / Invalide / Incertain

Ce que tu dois voir

  • Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
  • Bloc-notes reste ouvert en arrière-plan

Comment juger

Verdict Quand
Valide Le dialogue "Enregistrer sous" apparaît
Invalide Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme
Incertain ⚠️ Le dialogue apparaît mais Notepad n'est pas en arrière-plan

Gap connu

save_as_requires_unsaved_notepad_document : si le document a déjà un chemin de sauvegarde, Ctrl+S sauvegarde silencieusement sans ouvrir le dialogue. Le document doit être non enregistré.


Test 3 — key_alt_f4_wait_windowsterminal_exe (Alt+F4 → fermer fenêtre)

Ce que Léa va faire

Appuyer sur Alt+F4 pour fermer la fenêtre Bloc-notes courante.

État initial requis

  • Bloc-notes ouvert avec un fichier (peut être enregistré ou non)
  • Bloc-notes au premier plan
  • ⚠️ Si le document est modifié et non sauvegardé, un dialogue de confirmation peut apparaître ("Voulez-vous enregistrer ?")

Procédure

  1. Ouvre Bloc-notes avec un fichier
  2. Mets Bloc-notes au premier plan
  3. Dashboard → Knowledge Base → key_alt_f4_wait_windowsterminal_exe
  4. Clique Tester
  5. Modale : "Prépare le test supervisé..." → clique Continuer le test
  6. Léa envoie Alt+F4 automatiquement
  7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
  8. Pause after : clique Valide / Invalide / Incertain

Ce que tu dois voir

  • Bloc-notes se ferme
  • La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan

Comment juger

Verdict Quand
Valide Bloc-notes se ferme, une autre fenêtre prend le focus
Invalide Bloc-notes ne se ferme pas, ou une erreur système apparaît
Incertain ⚠️ Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète

Gap connu — ⚠️ IMPORTANT

alt_f4_confirmation_dialog_not_covered : le success_marker actuel attend C:\Windows\system32\cmd.exe / WindowsTerminal.exe après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). Ce n'est pas le bon marqueur de succès général. Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.

Conséquence : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique Incertain — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.


Résumé des verdicts

Après chaque test, le dashboard enregistre le verdict dans data/competence_verdicts/verdicts.jsonl. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en stable nécessite 3 succès indépendants.

Compétence Verdict Observations
key_win_r_wait_explorer_exe
key_ctrl_s_wait_notepad_exe
key_alt_f4_wait_windowsterminal_exe

Questions fréquentes

Q : Et si la modale reste bloquée sur "Lancement du replay..." ? R : Vérifie que l'agent Windows est connecté et que le streaming server (:5005) tourne. Ferme la modale et recommence.

Q : Et si le replay envoie les touches mais que rien ne se passe ? R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.

Q : Puis-je tester plusieurs fois la même compétence ? R : Oui. Chaque test génère un nouveau verdict. Pour la promotion candidate → stable, il faut 3 succès avec 3 contextes distincts.

Q : Que se passe-t-il si je clique "Invalide" ? R : Le verdict est enregistré comme invalid. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag regression_suspected sera activé.


Auteur : Qwen