docs: add POC specs, handoffs, and research notes

This commit is contained in:
Dom
2026-06-02 16:28:34 +02:00
parent 18ed6cb751
commit f2e9aac6b7
86 changed files with 27615 additions and 25 deletions

View File

@@ -0,0 +1,164 @@
# Guide de test humain — Compétences batch 1
**Date** : 2026-06-01
**Auteur** : Qwen
**Objectif** : tester en direct que Léa peut rejouer une compétence apprise, et que l'humain peut valider le résultat.
---
## Prérequis généraux
| Élément | Vérification |
|---------|-------------|
| Dashboard web actif | `http://<ip>:3000` → page Knowledge Base visible |
| Streaming server actif | `http://<ip>:5005` (le dashboard s'y connecte) |
| Agent Windows connecté | La machine `DESKTOP-58D5CAC_windows` apparaît dans le dashboard |
| Compétences visibles | 3 compétences `candidate` dans la Knowledge Base |
---
## Test 1 — `key_win_r_wait_explorer_exe` (Win+R → Exécuter)
### Ce que Léa va faire
Appuyer sur `Win+R` et attendre que la fenêtre **Exécuter** apparaisse.
### État initial requis
- ✅ Bureau Windows visible
-**Aucun** dialogue Exécuter ouvert (ferme-le s'il est ouvert)
-`explorer.exe` tourne (toujours le cas sur Windows)
### Procédure
1. Ouvre le dashboard → onglet **Knowledge Base**
2. Trouve la ligne `key_win_r_wait_explorer_exe`
3. Clique **Tester**
4. Une modale s'ouvre, le replay se lance
5. **Pause before** : la modale dit "Prépare le test supervisé..." → clique **Continuer le test**
6. Léa envoie `Win+R` automatiquement
7. La fenêtre Exécuter doit apparaître en ~1-2 secondes
8. **Pause after** : la modale dit "Valide le résultat..." → 3 boutons apparaissent
### Ce que tu dois voir
- La fenêtre Exécuter s'ouvre et passe au premier plan
- La modale affiche "Valide le résultat de la compétence..."
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | La fenêtre Exécuter apparaît et est au premier plan |
| **Invalide** ❌ | Rien ne se passe, ou une autre fenêtre s'ouvre |
| **Incertain** ⚠️ | La fenêtre Exécuter apparaît mais n'est pas au premier plan (une autre app la cache) |
### Gap connu
> Si le dialogue Exécuter était **déjà ouvert** avant le test, le succès est un faux positif. Le YAML a un `t2_known_gap` documenté : `run_dialog_preexisting_false_positive`. **Vérifie l'absence du dialogue avant de cliquer Continuer.**
---
## Test 2 — `key_ctrl_s_wait_notepad_exe` (Ctrl+S → Enregistrer sous)
### Ce que Léa va faire
Appuyer sur `Ctrl+S` et attendre que le dialogue **Enregistrer sous** apparaisse.
### État initial requis
-**Bloc-notes (Notepad) ouvert** avec un document
- ✅ Document **non enregistré** et **modifié** (le titre doit contenir un astérisque `*`, ex: `Sans titre * Bloc-notes`)
- ✅ Aucun dialogue "Enregistrer sous" déjà ouvert
### Comment préparer
1. Ouvre Bloc-notes (`notepad.exe`)
2. Tape du texte au hasard
3. **Ne sauvegarde pas** → le titre doit montrer `*` (document modifié non sauvegardé)
### Procédure
1. Dashboard → Knowledge Base → `key_ctrl_s_wait_notepad_exe`
2. Clique **Tester**
3. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
4. Léa envoie `Ctrl+S` automatiquement
5. Le dialogue "Enregistrer sous" doit apparaître en ~1-2 secondes
6. **Pause after** : clique Valide / Invalide / Incertain
### Ce que tu dois voir
- Le dialogue "Enregistrer sous" de Notepad apparaît au premier plan
- Bloc-notes reste ouvert en arrière-plan
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | Le dialogue "Enregistrer sous" apparaît |
| **Invalide** ❌ | Rien ne se passe (document déjà enregistré = sauvegarde silencieuse), ou Notepad se ferme |
| **Incertain** ⚠️ | Le dialogue apparaît mais Notepad n'est pas en arrière-plan |
### Gap connu
> `save_as_requires_unsaved_notepad_document` : si le document a déjà un chemin de sauvegarde, `Ctrl+S` sauvegarde silencieusement sans ouvrir le dialogue. **Le document doit être non enregistré.**
---
## Test 3 — `key_alt_f4_wait_windowsterminal_exe` (Alt+F4 → fermer fenêtre)
### Ce que Léa va faire
Appuyer sur `Alt+F4` pour fermer la fenêtre Bloc-notes courante.
### État initial requis
-**Bloc-notes ouvert** avec un fichier (peut être enregistré ou non)
- ✅ Bloc-notes au **premier plan**
- ⚠️ Si le document est modifié et non sauvegardé, un **dialogue de confirmation** peut apparaître ("Voulez-vous enregistrer ?")
### Procédure
1. Ouvre Bloc-notes avec un fichier
2. Mets Bloc-notes au premier plan
3. Dashboard → Knowledge Base → `key_alt_f4_wait_windowsterminal_exe`
4. Clique **Tester**
5. Modale : "Prépare le test supervisé..." → clique **Continuer le test**
6. Léa envoie `Alt+F4` automatiquement
7. Bloc-notes doit se fermer (ou afficher le dialogue de confirmation)
8. **Pause after** : clique Valide / Invalide / Incertain
### Ce que tu dois voir
- Bloc-notes se ferme
- La fenêtre derrière (ex: explorateur, bureau, terminal) passe au premier plan
### Comment juger
| Verdict | Quand |
|---------|-------|
| **Valide** ✅ | Bloc-notes se ferme, une autre fenêtre prend le focus |
| **Invalide** ❌ | Bloc-notes ne se ferme pas, ou une erreur système apparaît |
| **Incertain** ⚠️ | Le dialogue "Enregistrer les modifications ?" apparaît — la fermeture n'est pas complète |
### Gap connu — ⚠️ IMPORTANT
> `alt_f4_confirmation_dialog_not_covered` : le `success_marker` actuel attend `C:\Windows\system32\cmd.exe` / `WindowsTerminal.exe` après fermeture. C'est un artefact de la session d'observation (c'était le Terminal qui était derrière). **Ce n'est pas le bon marqueur de succès général.** Si une autre fenêtre que le Terminal est derrière, le wait_state peut échouer même si la fermeture a réussi.
**Conséquence** : ce test est le moins fiable des 3. Si Alt+F4 ferme bien Bloc-notes mais que le wait_state timeout (parce que la fenêtre derrière n'est pas Terminal), clique **Incertain** — ce n'est pas un bug de Léa, c'est le marqueur de succès qui est trop spécifique.
---
## Résumé des verdicts
Après chaque test, le dashboard enregistre le verdict dans `data/competence_verdicts/verdicts.jsonl`. Tu ne verras pas de changement immédiat dans les fichiers YAML — la promotion en `stable` nécessite 3 succès indépendants.
| Compétence | Verdict | Observations |
|-----------|---------|-------------|
| `key_win_r_wait_explorer_exe` | | |
| `key_ctrl_s_wait_notepad_exe` | | |
| `key_alt_f4_wait_windowsterminal_exe` | | |
---
## Questions fréquentes
**Q : Et si la modale reste bloquée sur "Lancement du replay..." ?**
R : Vérifie que l'agent Windows est connecté et que le streaming server (`:5005`) tourne. Ferme la modale et recommence.
**Q : Et si le replay envoie les touches mais que rien ne se passe ?**
R : Vérifie que la fenêtre cible est au premier plan. Si tu testes Ctrl+S mais que Notepad n'est pas actif, le Ctrl+S ira à une autre application.
**Q : Puis-je tester plusieurs fois la même compétence ?**
R : Oui. Chaque test génère un nouveau verdict. Pour la promotion `candidate → stable`, il faut 3 succès avec 3 contextes distincts.
**Q : Que se passe-t-il si je clique "Invalide" ?**
R : Le verdict est enregistré comme `invalid`. Le replay se termine normalement. Le YAML n'est pas modifié. Si 3 invalid consécutifs surviennent, un flag `regression_suspected` sera activé.
---
*Auteur : Qwen*