Files
rpa_vision_v3/.kiro/specs/visual-rpa-properties-enhancement/requirements.md
Dom a7de6a488b feat: replay E2E fonctionnel — 25/25 actions, 0 retries, SomEngine via serveur
Validé sur PC Windows (DESKTOP-58D5CAC, 2560x1600) :
- 8 clics résolus visuellement (1 anchor_template, 1 som_text_match, 6 som_vlm)
- Score moyen 0.75, temps moyen 1.6s
- Texte tapé correctement (bonjour, test word, date, email)
- 0 retries, 2 actions non vérifiées (OK)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-31 14:04:41 +02:00

139 lines
9.5 KiB
Markdown

# Document d'Exigences: Amélioration des Propriétés RPA 100% Visuel
## Introduction
Cette spécification vise à améliorer le Visual Workflow Builder pour qu'il soit entièrement basé sur la vision, en supprimant toute référence aux sélecteurs CSS/XPath et en améliorant la visualisation des captures d'écran dans la fenêtre des propriétés. L'objectif est de rendre le système RPA complètement visuel et intuitif pour les utilisateurs non-techniques.
Le système doit permettre aux utilisateurs de sélectionner des éléments uniquement par reconnaissance visuelle et d'afficher clairement les captures d'écran des éléments sélectionnés pour une meilleure compréhension et validation.
## Glossaire
- **Sélection Visuelle**: Méthode de sélection d'éléments UI basée uniquement sur la reconnaissance visuelle et les embeddings
- **Capture d'Écran Contextuelle**: Image de l'élément sélectionné dans son contexte d'écran
- **Propriétés Visuelles**: Panneau de configuration utilisant uniquement des méthodes visuelles
- **Embedding Visuel**: Représentation vectorielle d'un élément UI pour la reconnaissance
- **Signature Visuelle**: Identifiant unique basé sur l'apparence visuelle d'un élément
- **Aperçu Interactif**: Visualisation agrandie et interactive des captures d'écran
- **Sélecteur Visuel**: Méthode de ciblage basée sur les caractéristiques visuelles uniquement
## Exigences
### Exigence 1: Suppression des Sélecteurs CSS/XPath
**User Story:** En tant qu'utilisateur RPA, je veux configurer mes actions sans voir de code technique, afin de me concentrer uniquement sur les aspects visuels de l'automatisation.
#### Critères d'Acceptation
1. QUAND un utilisateur ouvre le panneau des propriétés d'un outil, LE Système DOIT masquer tous les champs CSS et XPath
2. QUAND un utilisateur configure une cible, LE Système DOIT utiliser uniquement la sélection visuelle interactive
3. QUAND le système stocke une cible, LE Système DOIT utiliser les embeddings visuels et les signatures d'éléments
4. QUAND un utilisateur voit les propriétés d'un élément, LE Système DOIT afficher uniquement les informations visuelles compréhensibles
5. QUAND le système exécute une action, LE Système DOIT résoudre les cibles par reconnaissance visuelle uniquement
### Exigence 2: Amélioration de la Visualisation des Captures
**User Story:** En tant qu'utilisateur RPA, je veux voir clairement la capture d'écran de l'élément que j'ai sélectionné, afin de valider visuellement ma configuration.
#### Critères d'Acceptation
1. QUAND un élément est sélectionné, LE Système DOIT afficher une capture d'écran haute qualité de l'élément dans le panneau des propriétés
2. QUAND l'utilisateur clique sur la capture, LE Système DOIT ouvrir un aperçu agrandi avec zoom et navigation
3. QUAND la capture est affichée, LE Système DOIT inclure un contour coloré montrant la zone exacte de l'élément
4. QUAND plusieurs éléments similaires existent, LE Système DOIT afficher des indicateurs visuels de différenciation
5. QUAND l'élément change d'apparence, LE Système DOIT mettre à jour automatiquement la capture d'écran
### Exigence 3: Sélection Visuelle Pure
**User Story:** En tant qu'utilisateur RPA, je veux sélectionner des éléments uniquement en les pointant visuellement, afin d'éviter toute complexité technique.
#### Critères d'Acceptation
1. QUAND un utilisateur clique sur "Sélectionner un élément", LE Système DOIT capturer l'écran actuel et entrer en mode sélection visuelle
2. QUAND l'utilisateur survole des éléments, LE Système DOIT les mettre en surbrillance avec des contours colorés
3. QUAND l'utilisateur clique sur un élément, LE Système DOIT extraire ses caractéristiques visuelles et créer une signature unique
4. QUAND la sélection est confirmée, LE Système DOIT stocker l'embedding visuel et les métadonnées de l'élément
5. QUAND l'élément est sélectionné, LE Système DOIT afficher immédiatement sa capture dans le panneau des propriétés
### Exigence 4: Informations Visuelles Enrichies
**User Story:** En tant qu'utilisateur RPA, je veux voir des informations détaillées mais compréhensibles sur l'élément sélectionné, afin de valider ma configuration sans connaissances techniques.
#### Critères d'Acceptation
1. QUAND un élément est sélectionné, LE Système DOIT afficher son type d'élément en langage naturel (bouton, champ de texte, lien, etc.)
2. QUAND les propriétés sont affichées, LE Système DOIT inclure la position relative ("en haut à droite", "au centre", etc.)
3. QUAND l'élément contient du texte, LE Système DOIT afficher le texte visible de manière lisible
4. QUAND l'élément a des caractéristiques spéciales, LE Système DOIT les décrire en termes visuels compréhensibles
5. QUAND la confiance de reconnaissance est faible, LE Système DOIT afficher un avertissement visuel clair
### Exigence 5: Aperçu Interactif des Captures
**User Story:** En tant qu'utilisateur RPA, je veux pouvoir examiner en détail la capture d'écran de mon élément, afin de m'assurer qu'il est correctement identifié.
#### Critères d'Acceptation
1. QUAND l'utilisateur clique sur une capture d'écran, LE Système DOIT ouvrir une fenêtre d'aperçu en plein écran
2. QUAND l'aperçu est ouvert, LE Système DOIT permettre le zoom avec la molette de la souris
3. QUAND l'utilisateur zoome, LE Système DOIT maintenir la qualité de l'image et la fluidité
4. QUAND l'élément cible est visible, LE Système DOIT afficher un contour animé pour le mettre en évidence
5. QUAND l'aperçu est fermé, LE Système DOIT revenir au panneau des propriétés avec la configuration intacte
### Exigence 6: Validation Visuelle en Temps Réel
**User Story:** En tant qu'utilisateur RPA, je veux savoir immédiatement si mon élément sélectionné est toujours valide, afin d'éviter les erreurs d'exécution.
#### Critères d'Acceptation
1. QUAND un élément est configuré, LE Système DOIT vérifier périodiquement sa présence à l'écran
2. QUAND l'élément est trouvé, LE Système DOIT afficher un indicateur vert de validation
3. QUAND l'élément n'est plus trouvé, LE Système DOIT afficher un avertissement orange avec suggestions
4. QUAND l'élément a changé d'apparence, LE Système DOIT proposer une mise à jour de la sélection
5. QUAND la validation échoue, LE Système DOIT offrir de relancer la sélection visuelle
### Exigence 7: Métadonnées Visuelles Contextuelles
**User Story:** En tant qu'utilisateur RPA, je veux comprendre le contexte de mon élément sélectionné, afin de m'assurer qu'il fonctionnera dans différentes situations.
#### Critères d'Acceptation
1. QUAND un élément est sélectionné, LE Système DOIT capturer et afficher le contexte environnant (éléments voisins)
2. QUAND les métadonnées sont affichées, LE Système DOIT inclure la taille approximative en termes compréhensibles
3. QUAND l'élément fait partie d'un groupe, LE Système DOIT identifier et afficher les éléments similaires
4. QUAND l'élément a des états visuels (hover, focus), LE Système DOIT les détecter et les signaler
5. QUAND le contexte change, LE Système DOIT mettre à jour les métadonnées automatiquement
### Exigence 8: Interface Simplifiée et Intuitive
**User Story:** En tant qu'utilisateur RPA, je veux une interface claire et sans éléments techniques, afin de me concentrer sur la logique métier de mon automatisation.
#### Critères d'Acceptation
1. QUAND le panneau des propriétés s'ouvre, LE Système DOIT afficher uniquement des contrôles visuels et intuitifs
2. QUAND des options techniques sont nécessaires, LE Système DOIT les présenter avec des termes métier compréhensibles
3. QUAND l'utilisateur configure un délai, LE Système DOIT utiliser des curseurs et des unités familières (secondes, millisecondes)
4. QUAND des erreurs surviennent, LE Système DOIT les expliquer en termes visuels avec des suggestions d'action
5. QUAND l'aide est nécessaire, LE Système DOIT fournir des exemples visuels et des captures d'écran
### Exigence 9: Persistance et Récupération Visuelles
**User Story:** En tant qu'utilisateur RPA, je veux que mes sélections visuelles soient sauvegardées et récupérées fidèlement, afin de pouvoir reprendre mon travail sans perte.
#### Critères d'Acceptation
1. QUAND un workflow est sauvegardé, LE Système DOIT stocker les embeddings visuels et les captures d'écran
2. QUAND un workflow est chargé, LE Système DOIT restaurer toutes les captures et métadonnées visuelles
3. QUAND les captures sont restaurées, LE Système DOIT vérifier leur validité actuelle
4. QUAND une capture n'est plus valide, LE Système DOIT proposer une re-sélection guidée
5. QUAND le workflow est exporté, LE Système DOIT inclure toutes les données visuelles nécessaires
### Exigence 10: Performance et Réactivité Visuelles
**User Story:** En tant qu'utilisateur RPA, je veux que la sélection et l'affichage des éléments visuels soient rapides et fluides, afin de maintenir un flux de travail efficace.
#### Critères d'Acceptation
1. QUAND une capture d'écran est prise, LE Système DOIT la traiter et l'afficher en moins de 2 secondes
2. QUAND l'utilisateur survole des éléments en mode sélection, LE Système DOIT réagir en moins de 100ms
3. QUAND une capture est zoomée, LE Système DOIT maintenir 60fps de fluidité
4. QUAND plusieurs captures sont affichées, LE Système DOIT utiliser la mise en cache pour optimiser les performances
5. QUAND le système traite les embeddings, LE Système DOIT le faire en arrière-plan sans bloquer l'interface