Validé sur PC Windows (DESKTOP-58D5CAC, 2560x1600) : - 8 clics résolus visuellement (1 anchor_template, 1 som_text_match, 6 som_vlm) - Score moyen 0.75, temps moyen 1.6s - Texte tapé correctement (bonjour, test word, date, email) - 0 retries, 2 actions non vérifiées (OK) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
9.5 KiB
Document d'Exigences: Amélioration des Propriétés RPA 100% Visuel
Introduction
Cette spécification vise à améliorer le Visual Workflow Builder pour qu'il soit entièrement basé sur la vision, en supprimant toute référence aux sélecteurs CSS/XPath et en améliorant la visualisation des captures d'écran dans la fenêtre des propriétés. L'objectif est de rendre le système RPA complètement visuel et intuitif pour les utilisateurs non-techniques.
Le système doit permettre aux utilisateurs de sélectionner des éléments uniquement par reconnaissance visuelle et d'afficher clairement les captures d'écran des éléments sélectionnés pour une meilleure compréhension et validation.
Glossaire
- Sélection Visuelle: Méthode de sélection d'éléments UI basée uniquement sur la reconnaissance visuelle et les embeddings
- Capture d'Écran Contextuelle: Image de l'élément sélectionné dans son contexte d'écran
- Propriétés Visuelles: Panneau de configuration utilisant uniquement des méthodes visuelles
- Embedding Visuel: Représentation vectorielle d'un élément UI pour la reconnaissance
- Signature Visuelle: Identifiant unique basé sur l'apparence visuelle d'un élément
- Aperçu Interactif: Visualisation agrandie et interactive des captures d'écran
- Sélecteur Visuel: Méthode de ciblage basée sur les caractéristiques visuelles uniquement
Exigences
Exigence 1: Suppression des Sélecteurs CSS/XPath
User Story: En tant qu'utilisateur RPA, je veux configurer mes actions sans voir de code technique, afin de me concentrer uniquement sur les aspects visuels de l'automatisation.
Critères d'Acceptation
- QUAND un utilisateur ouvre le panneau des propriétés d'un outil, LE Système DOIT masquer tous les champs CSS et XPath
- QUAND un utilisateur configure une cible, LE Système DOIT utiliser uniquement la sélection visuelle interactive
- QUAND le système stocke une cible, LE Système DOIT utiliser les embeddings visuels et les signatures d'éléments
- QUAND un utilisateur voit les propriétés d'un élément, LE Système DOIT afficher uniquement les informations visuelles compréhensibles
- QUAND le système exécute une action, LE Système DOIT résoudre les cibles par reconnaissance visuelle uniquement
Exigence 2: Amélioration de la Visualisation des Captures
User Story: En tant qu'utilisateur RPA, je veux voir clairement la capture d'écran de l'élément que j'ai sélectionné, afin de valider visuellement ma configuration.
Critères d'Acceptation
- QUAND un élément est sélectionné, LE Système DOIT afficher une capture d'écran haute qualité de l'élément dans le panneau des propriétés
- QUAND l'utilisateur clique sur la capture, LE Système DOIT ouvrir un aperçu agrandi avec zoom et navigation
- QUAND la capture est affichée, LE Système DOIT inclure un contour coloré montrant la zone exacte de l'élément
- QUAND plusieurs éléments similaires existent, LE Système DOIT afficher des indicateurs visuels de différenciation
- QUAND l'élément change d'apparence, LE Système DOIT mettre à jour automatiquement la capture d'écran
Exigence 3: Sélection Visuelle Pure
User Story: En tant qu'utilisateur RPA, je veux sélectionner des éléments uniquement en les pointant visuellement, afin d'éviter toute complexité technique.
Critères d'Acceptation
- QUAND un utilisateur clique sur "Sélectionner un élément", LE Système DOIT capturer l'écran actuel et entrer en mode sélection visuelle
- QUAND l'utilisateur survole des éléments, LE Système DOIT les mettre en surbrillance avec des contours colorés
- QUAND l'utilisateur clique sur un élément, LE Système DOIT extraire ses caractéristiques visuelles et créer une signature unique
- QUAND la sélection est confirmée, LE Système DOIT stocker l'embedding visuel et les métadonnées de l'élément
- QUAND l'élément est sélectionné, LE Système DOIT afficher immédiatement sa capture dans le panneau des propriétés
Exigence 4: Informations Visuelles Enrichies
User Story: En tant qu'utilisateur RPA, je veux voir des informations détaillées mais compréhensibles sur l'élément sélectionné, afin de valider ma configuration sans connaissances techniques.
Critères d'Acceptation
- QUAND un élément est sélectionné, LE Système DOIT afficher son type d'élément en langage naturel (bouton, champ de texte, lien, etc.)
- QUAND les propriétés sont affichées, LE Système DOIT inclure la position relative ("en haut à droite", "au centre", etc.)
- QUAND l'élément contient du texte, LE Système DOIT afficher le texte visible de manière lisible
- QUAND l'élément a des caractéristiques spéciales, LE Système DOIT les décrire en termes visuels compréhensibles
- QUAND la confiance de reconnaissance est faible, LE Système DOIT afficher un avertissement visuel clair
Exigence 5: Aperçu Interactif des Captures
User Story: En tant qu'utilisateur RPA, je veux pouvoir examiner en détail la capture d'écran de mon élément, afin de m'assurer qu'il est correctement identifié.
Critères d'Acceptation
- QUAND l'utilisateur clique sur une capture d'écran, LE Système DOIT ouvrir une fenêtre d'aperçu en plein écran
- QUAND l'aperçu est ouvert, LE Système DOIT permettre le zoom avec la molette de la souris
- QUAND l'utilisateur zoome, LE Système DOIT maintenir la qualité de l'image et la fluidité
- QUAND l'élément cible est visible, LE Système DOIT afficher un contour animé pour le mettre en évidence
- QUAND l'aperçu est fermé, LE Système DOIT revenir au panneau des propriétés avec la configuration intacte
Exigence 6: Validation Visuelle en Temps Réel
User Story: En tant qu'utilisateur RPA, je veux savoir immédiatement si mon élément sélectionné est toujours valide, afin d'éviter les erreurs d'exécution.
Critères d'Acceptation
- QUAND un élément est configuré, LE Système DOIT vérifier périodiquement sa présence à l'écran
- QUAND l'élément est trouvé, LE Système DOIT afficher un indicateur vert de validation
- QUAND l'élément n'est plus trouvé, LE Système DOIT afficher un avertissement orange avec suggestions
- QUAND l'élément a changé d'apparence, LE Système DOIT proposer une mise à jour de la sélection
- QUAND la validation échoue, LE Système DOIT offrir de relancer la sélection visuelle
Exigence 7: Métadonnées Visuelles Contextuelles
User Story: En tant qu'utilisateur RPA, je veux comprendre le contexte de mon élément sélectionné, afin de m'assurer qu'il fonctionnera dans différentes situations.
Critères d'Acceptation
- QUAND un élément est sélectionné, LE Système DOIT capturer et afficher le contexte environnant (éléments voisins)
- QUAND les métadonnées sont affichées, LE Système DOIT inclure la taille approximative en termes compréhensibles
- QUAND l'élément fait partie d'un groupe, LE Système DOIT identifier et afficher les éléments similaires
- QUAND l'élément a des états visuels (hover, focus), LE Système DOIT les détecter et les signaler
- QUAND le contexte change, LE Système DOIT mettre à jour les métadonnées automatiquement
Exigence 8: Interface Simplifiée et Intuitive
User Story: En tant qu'utilisateur RPA, je veux une interface claire et sans éléments techniques, afin de me concentrer sur la logique métier de mon automatisation.
Critères d'Acceptation
- QUAND le panneau des propriétés s'ouvre, LE Système DOIT afficher uniquement des contrôles visuels et intuitifs
- QUAND des options techniques sont nécessaires, LE Système DOIT les présenter avec des termes métier compréhensibles
- QUAND l'utilisateur configure un délai, LE Système DOIT utiliser des curseurs et des unités familières (secondes, millisecondes)
- QUAND des erreurs surviennent, LE Système DOIT les expliquer en termes visuels avec des suggestions d'action
- QUAND l'aide est nécessaire, LE Système DOIT fournir des exemples visuels et des captures d'écran
Exigence 9: Persistance et Récupération Visuelles
User Story: En tant qu'utilisateur RPA, je veux que mes sélections visuelles soient sauvegardées et récupérées fidèlement, afin de pouvoir reprendre mon travail sans perte.
Critères d'Acceptation
- QUAND un workflow est sauvegardé, LE Système DOIT stocker les embeddings visuels et les captures d'écran
- QUAND un workflow est chargé, LE Système DOIT restaurer toutes les captures et métadonnées visuelles
- QUAND les captures sont restaurées, LE Système DOIT vérifier leur validité actuelle
- QUAND une capture n'est plus valide, LE Système DOIT proposer une re-sélection guidée
- QUAND le workflow est exporté, LE Système DOIT inclure toutes les données visuelles nécessaires
Exigence 10: Performance et Réactivité Visuelles
User Story: En tant qu'utilisateur RPA, je veux que la sélection et l'affichage des éléments visuels soient rapides et fluides, afin de maintenir un flux de travail efficace.
Critères d'Acceptation
- QUAND une capture d'écran est prise, LE Système DOIT la traiter et l'afficher en moins de 2 secondes
- QUAND l'utilisateur survole des éléments en mode sélection, LE Système DOIT réagir en moins de 100ms
- QUAND une capture est zoomée, LE Système DOIT maintenir 60fps de fluidité
- QUAND plusieurs captures sont affichées, LE Système DOIT utiliser la mise en cache pour optimiser les performances
- QUAND le système traite les embeddings, LE Système DOIT le faire en arrière-plan sans bloquer l'interface