Files
rpa_vision_v3/docs/demo/test-humain-batch1.md

165 lines
7.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Guide de test humain — Compétences batch 1
**Date** : 2026-06-01
**Auteur** : Qwen
**Objectif** : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.
---
## Prérequis généraux
| Élément | Vérification |
|---------|-------------|
| Dashboard web actif | `http://<ip>:3000` → page Knowledge Base visible |
| Streaming server actif | `http://<ip>:5005` (le dashboard s'y connecte) |
| Agent Windows connecté | La machine `DESKTOP-58D5CAC_windows` apparaît dans le dashboard |
| Compétences visibles | 3 compétences `candidate` dans la Knowledge Base |
---
## Test 1 — `key_win_r_wait_explorer_exe` (Win+R → Exécuter)
### Ce que Léa va faire
Appuyer sur `Win+R` et attendre que la fenêtre **Exécuter** apparaisse.
### État initial requis
- ✅ Bureau Windows visible
-**Aucun** dialogue Exécuter ouvert (ferme-le s'il est ouvert)
-`explorer.exe` tourne (toujours le cas sur Windows)
### Procédure
1. Ouvre le dashboard → onglet **Knowledge Base**
2. Trouve la ligne `key_win_r_wait_explorer_exe`
3. Clique **Tester**
4. Une modale s'ouvre, le replay se lance
5. **Pause before** : la modale dit "Prépare le test supervisé..." → clique **Continuer le test**
6. Léa envoie `Win+R` automatiquement
7. La fenêtre Exécuter doit apparaître en ~1-2 secondes
8. **Pause after** : la modale dit "Valide le résultat..." → 3 boutons apparaissent
### Ce que tu dois voir
- La fenêtre Exécuter s'ouvre et passe au premier plan
- La modale affiche "Valide le résultat de la compétence..."
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | La fenêtre Exécuter apparaît et est au premier plan |
| **Invalide** ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre |
| **Incertain** ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) |
### Gap connu
> Si le dialogue Exécuter était **déjà ouvert** avant le test, le succès est un faux positif. Le YAML a un `t2_known_gap` documenté : `run_dialog_preexisting_false_positive`. **Vérifie l'absence du dialogue avant de cliquer Continuer.**
---
## Test 2 — `key_ctrl_s_wait_notepad_exe` (Ctrl+S → Enregistrer sous)
### Ce que Léa va faire
Appuyer sur `Ctrl+S` et attendre que le dialogue **Enregistrer sous** apparaisse.
### État initial requis
-**Bloc-notes (Notepad) ouvert** avec un document
- ✅ Document **non enregistré** et **modifié** (le titre doit contenir un astérisque `*`, ex: `Sans titre * Bloc-notes`)
- ✅ Aucun dialogue "Enregistrer sous" déjà ouvert
### Comment préparer
1. Ouvre Bloc-notes (`notepad.exe`)
2. Tape du texte au hasard
3. **Ne sauvegarde pas** → le titre doit montrer `*` (document modifié non sauvegardé)
### Procédure
1. Dashboard → Knowledge Base → `key_ctrl_s_wait_notepad_exe`
2. Clique **Tester**
3. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
4. Léa envoie `Ctrl+S` automatiquement
5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
6. **Pause after** : clique Valide / Invalide / Incertain
### Ce que tu dois voir
- Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
- Bloc-notes reste ouvert en arrière-plan
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | Le dialogue "Enregistrer sous" apparaît |
| **Invalide** ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme |
| **Incertain** ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan |
### Gap connu
> `save_as_requires_unsaved_notepad_document` : si le document a déjà un chemin de sauvegarde, `Ctrl+S` sauvegarde silencieusement sans ouvrir le dialogue. **Le document doit être non enregistré.**
---
## Test 3 — `key_alt_f4_wait_windowsterminal_exe` (Alt+F4 → fermer fenêtre)
### Ce que Léa va faire
Appuyer sur `Alt+F4` pour fermer la fenêtre Bloc-notes courante.
### État initial requis
-**Bloc-notes ouvert** avec un fichier (peut être enregistré ou non)
- ✅ Bloc-notes au **premier plan**
- ⚠️ Si le document est modifié et non sauvegardé, un **dialogue de confirmation** peut apparaître ("Voulez-vous enregistrer ?")
### Procédure
1. Ouvre Bloc-notes avec un fichier
2. Mets Bloc-notes au premier plan
3. Dashboard → Knowledge Base → `key_alt_f4_wait_windowsterminal_exe`
4. Clique **Tester**
5. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
6. Léa envoie `Alt+F4` automatiquement
7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
8. **Pause after** : clique Valide / Invalide / Incertain
### Ce que tu dois voir
- Bloc-notes se ferme
- La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus |
| **Invalide** ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît |
| **Incertain** ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète |
### Gap connu — ⚠️ IMPORTANT
> `alt_f4_confirmation_dialog_not_covered` : le `success_marker` actuel attend `C:\Windows\system32\cmd.exe` / `WindowsTerminal.exe` après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). **Ce n'est pas le bon marqueur de succès général.** Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.
**Conséquence** : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique **Incertain** — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.
---
## Résumé des verdicts
Après chaque test, le dashboard enregistre le verdict dans `data/competence_verdicts/verdicts.jsonl`. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en `stable` nécessite 3 succès indépendants.
| Compétence | Verdict | Observations |
|-----------|---------|-------------|
| `key_win_r_wait_explorer_exe` | | |
| `key_ctrl_s_wait_notepad_exe` | | |
| `key_alt_f4_wait_windowsterminal_exe` | | |
---
## Questions fréquentes
**Q : Et si la modale reste bloquée sur "Lancement du replay..." ?**
R : Vérifie que l'agent Windows est connecté et que le streaming server (`:5005`) tourne. Ferme la modale et recommence.
**Q : Et si le replay envoie les touches mais que rien ne se passe ?**
R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.
**Q : Puis-je tester plusieurs fois la même compétence ?**
R : Oui. Chaque test génère un nouveau verdict. Pour la promotion `candidate → stable`, il faut 3 succès avec 3 contextes distincts.
**Q : Que se passe-t-il si je clique "Invalide" ?**
R : Le verdict est enregistré comme `invalid`. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag `regression_suspected` sera activé.
---
*Auteur : Qwen*