Feat: Action analyser_avec_ia (Ollama qwen2.5-vl)

Nouvelle action d'intelligence artificielle: - Analyse de contenu visuel via Ollama - 8 types d'analyse prédéfinis: general, formulaire, erreur, boutons, tableau, menu, validation, extraction - Prompts personnalisables - Support température et max_tokens - Variable de sortie configurable Modèle par défaut: qwen2.5-vl:7b Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-14 23:15:33 +01:00
parent ae100d3da8
commit 38966de0db
2 changed files with 398 additions and 0 deletions
--- a/visual_workflow_builder/backend/actions/intelligence/init.py
+++ b/visual_workflow_builder/backend/actions/intelligence/init.py
@@ -0,0 +1,21 @@
+"""
+Actions Intelligence VWB - Module d'initialisation
+Auteur : Dom, Claude - 14 janvier 2026
+
+Ce module contient les actions d'intelligence artificielle
+pour le Visual Workflow Builder.
+
+Actions disponibles :
+- VWBAnalyserAvecIAAction : Analyse de contenu visuel avec IA (Ollama)
+"""
+
+from .analyser_avec_ia import VWBAnalyserAvecIAAction, VWBAIAnalyzeTextAction
+
+__all__ = [
+    'VWBAnalyserAvecIAAction',
+    'VWBAIAnalyzeTextAction',  # Alias anglais
+]
+
+__version__ = '1.0.0'
+__author__ = 'Dom, Claude'
+__date__ = '14 janvier 2026'
--- a/visual_workflow_builder/backend/actions/intelligence/analyser_avec_ia.py
+++ b/visual_workflow_builder/backend/actions/intelligence/analyser_avec_ia.py
@@ -0,0 +1,377 @@
+"""
+Action Analyser avec IA - Analyse de contenu visuel via Ollama
+Auteur : Dom, Claude - 14 janvier 2026
+
+Cette action permet d'analyser du contenu visuel (texte, images, interfaces)
+en utilisant un modèle de vision IA (Ollama avec qwen2.5-vl ou similaire).
+
+Cas d'usage :
+- Comprendre le contenu d'une zone d'écran
+- Extraire des informations structurées
+- Valider visuellement des états d'interface
+- Analyser des documents ou formulaires
+"""
+
+from typing import Dict, Any, List, Optional, Tuple
+from datetime import datetime
+import time
+import base64
+import io
+import requests
+
+from ..base_action import BaseVWBAction, VWBActionResult, VWBActionStatus
+from ...contracts.error import VWBErrorType, create_vwb_error
+from ...contracts.visual_anchor import VWBVisualAnchor
+
+
+# Configuration Ollama par défaut
+OLLAMA_DEFAULT_URL = "http://localhost:11434"
+OLLAMA_DEFAULT_MODEL = "qwen2.5-vl:7b"
+
+
+class VWBAnalyserAvecIAAction(BaseVWBAction):
+    """
+    Action d'analyse de contenu visuel avec IA.
+
+    Utilise Ollama avec un modèle de vision (qwen2.5-vl) pour :
+    - Analyser le contenu d'une zone d'écran
+    - Répondre à des questions sur l'interface
+    - Extraire des informations structurées
+    - Valider des états visuels
+    """
+
+    def __init__(
+        self,
+        action_id: str,
+        parameters: Dict[str, Any],
+        screen_capturer=None
+    ):
+        """
+        Initialise l'action d'analyse IA.
+
+        Args:
+            action_id: Identifiant unique de l'action
+            parameters: Paramètres de l'analyse
+            screen_capturer: Instance du ScreenCapturer (optionnel)
+        """
+        super().__init__(
+            action_id=action_id,
+            name="Analyser avec IA",
+            description="Analyse du contenu visuel avec intelligence artificielle",
+            parameters=parameters,
+            screen_capturer=screen_capturer
+        )
+
+        # Zone à analyser (ancre visuelle ou région)
+        self.ancre_visuelle: Optional[VWBVisualAnchor] = (
+            parameters.get('visual_anchor') or
+            parameters.get('ancre_visuelle')
+        )
+        self.region = parameters.get('region')  # {x, y, width, height}
+
+        # Prompt d'analyse
+        self.prompt = parameters.get('prompt', parameters.get('question', ''))
+        self.prompt_systeme = parameters.get('prompt_systeme', parameters.get('system_prompt', ''))
+
+        # Type d'analyse prédéfini
+        self.type_analyse = parameters.get('type_analyse', parameters.get('analysis_type', 'general'))
+
+        # Configuration Ollama
+        self.ollama_url = parameters.get('ollama_url', OLLAMA_DEFAULT_URL)
+        self.ollama_model = parameters.get('ollama_model', parameters.get('model', OLLAMA_DEFAULT_MODEL))
+
+        # Options
+        self.timeout_ms = parameters.get('timeout_ms', 30000)
+        self.temperature = parameters.get('temperature', 0.3)
+        self.max_tokens = parameters.get('max_tokens', 1000)
+
+        # Variable de sortie
+        self.variable_sortie = parameters.get('variable_sortie', parameters.get('output_variable', 'analyse_ia'))
+
+        # Prompts prédéfinis par type d'analyse
+        self.prompts_predefinifs = {
+            'general': "Décris ce que tu vois dans cette image de manière concise.",
+            'formulaire': "Analyse ce formulaire. Liste les champs visibles, leur état (rempli/vide) et les valeurs si lisibles.",
+            'erreur': "Y a-t-il un message d'erreur visible ? Si oui, quel est son contenu exact ?",
+            'boutons': "Liste tous les boutons visibles avec leur texte et leur état apparent (actif/inactif/grisé).",
+            'tableau': "Analyse ce tableau. Décris sa structure (colonnes, lignes) et résume son contenu.",
+            'menu': "Décris les options de menu visibles et leur hiérarchie.",
+            'validation': "Cette interface semble-t-elle dans un état valide ? Décris ce que tu observes.",
+            'extraction': "Extrait toutes les informations textuelles visibles de manière structurée.",
+        }
+
+    def validate_parameters(self) -> List[str]:
+        """Valide les paramètres de l'action."""
+        erreurs = []
+
+        # Vérifier qu'on a une source d'image
+        if not self.ancre_visuelle and not self.region and not self.screen_capturer:
+            erreurs.append("Ancre visuelle, région ou screen_capturer requis")
+
+        # Vérifier le prompt
+        if not self.prompt and self.type_analyse not in self.prompts_predefinifs:
+            erreurs.append("Prompt ou type d'analyse valide requis")
+
+        # Vérifier le timeout
+        if self.timeout_ms < 5000:
+            erreurs.append("Timeout minimum: 5000ms (5 secondes)")
+
+        if self.timeout_ms > 120000:
+            erreurs.append("Timeout maximum: 120000ms (2 minutes)")
+
+        return erreurs
+
+    def execute_core(self, step_id: str) -> VWBActionResult:
+        """
+        Exécute l'analyse IA.
+
+        Args:
+            step_id: Identifiant de l'étape
+
+        Returns:
+            Résultat d'exécution avec l'analyse
+        """
+        start_time = datetime.now()
+
+        try:
+            # Étape 1: Capturer l'image à analyser
+            image_base64 = self._capturer_image()
+
+            if not image_base64:
+                return self._create_error_result(
+                    step_id=step_id,
+                    start_time=start_time,
+                    error_type=VWBErrorType.SCREEN_CAPTURE_FAILED,
+                    message="Impossible de capturer l'image à analyser"
+                )
+
+            # Étape 2: Construire le prompt
+            prompt_final = self._construire_prompt()
+
+            # Étape 3: Appeler Ollama
+            print(f"🤖 Analyse IA en cours ({self.ollama_model})...")
+            resultat_analyse = self._analyser_avec_ollama(image_base64, prompt_final)
+
+            if resultat_analyse is None:
+                return self._create_error_result(
+                    step_id=step_id,
+                    start_time=start_time,
+                    error_type=VWBErrorType.SYSTEM_ERROR,
+                    message="Échec de l'analyse IA"
+                )
+
+            end_time = datetime.now()
+            execution_time = (end_time - start_time).total_seconds() * 1000
+
+            print(f"✅ Analyse IA terminée en {execution_time:.0f}ms")
+            print(f"📝 Résultat: {resultat_analyse[:200]}..." if len(resultat_analyse) > 200 else f"📝 Résultat: {resultat_analyse}")
+
+            return VWBActionResult(
+                action_id=self.action_id,
+                step_id=step_id,
+                status=VWBActionStatus.SUCCESS,
+                start_time=start_time,
+                end_time=end_time,
+                execution_time_ms=execution_time,
+                output_data={
+                    'analyse': resultat_analyse,
+                    'variable_sortie': self.variable_sortie,
+                    'type_analyse': self.type_analyse,
+                    'model': self.ollama_model,
+                    'prompt_utilise': prompt_final[:100] + '...' if len(prompt_final) > 100 else prompt_final
+                },
+                evidence_list=self.evidence_list.copy()
+            )
+
+        except Exception as e:
+            return self._create_error_result(
+                step_id=step_id,
+                start_time=start_time,
+                error_type=VWBErrorType.SYSTEM_ERROR,
+                message=f"Erreur: {str(e)}",
+                technical_details={'exception': str(e)}
+            )
+
+    def _capturer_image(self) -> Optional[str]:
+        """
+        Capture l'image à analyser.
+
+        Returns:
+            Image en base64 ou None
+        """
+        try:
+            # Option 1: Image depuis l'ancre visuelle
+            if self.ancre_visuelle:
+                if isinstance(self.ancre_visuelle, dict):
+                    img = self.ancre_visuelle.get('screenshot') or self.ancre_visuelle.get('image_base64')
+                    if img:
+                        return img
+                elif isinstance(self.ancre_visuelle, VWBVisualAnchor):
+                    if self.ancre_visuelle.screenshot_base64:
+                        return self.ancre_visuelle.screenshot_base64
+
+            # Option 2: Capture d'une région spécifique
+            if self.region and self.screen_capturer:
+                return self._capturer_region(self.region)
+
+            # Option 3: Capture de l'écran entier
+            if self.screen_capturer:
+                return self._capturer_ecran_complet()
+
+            return None
+
+        except Exception as e:
+            print(f"⚠️ Erreur capture: {e}")
+            return None
+
+    def _capturer_region(self, region: Dict[str, int]) -> Optional[str]:
+        """Capture une région spécifique de l'écran."""
+        try:
+            from PIL import Image
+
+            # Capturer l'écran entier
+            img_array = self.screen_capturer.capture()
+            if img_array is None:
+                return None
+
+            # Convertir en PIL et découper
+            pil_image = Image.fromarray(img_array)
+
+            x = region.get('x', 0)
+            y = region.get('y', 0)
+            width = region.get('width', 100)
+            height = region.get('height', 100)
+
+            cropped = pil_image.crop((x, y, x + width, y + height))
+
+            # Convertir en base64
+            buffer = io.BytesIO()
+            cropped.save(buffer, format='PNG')
+            return base64.b64encode(buffer.getvalue()).decode('utf-8')
+
+        except Exception as e:
+            print(f"⚠️ Erreur capture région: {e}")
+            return None
+
+    def _capturer_ecran_complet(self) -> Optional[str]:
+        """Capture l'écran entier."""
+        try:
+            from PIL import Image
+
+            img_array = self.screen_capturer.capture()
+            if img_array is None:
+                return None
+
+            pil_image = Image.fromarray(img_array)
+
+            buffer = io.BytesIO()
+            pil_image.save(buffer, format='PNG', optimize=True)
+            return base64.b64encode(buffer.getvalue()).decode('utf-8')
+
+        except Exception as e:
+            print(f"⚠️ Erreur capture écran: {e}")
+            return None
+
+    def _construire_prompt(self) -> str:
+        """
+        Construit le prompt final pour l'analyse.
+
+        Returns:
+            Prompt complet
+        """
+        # Utiliser le prompt personnalisé si fourni
+        if self.prompt:
+            prompt_base = self.prompt
+        # Sinon utiliser le prompt prédéfini selon le type
+        elif self.type_analyse in self.prompts_predefinifs:
+            prompt_base = self.prompts_predefinifs[self.type_analyse]
+        else:
+            prompt_base = self.prompts_predefinifs['general']
+
+        # Ajouter le prompt système si fourni
+        if self.prompt_systeme:
+            return f"{self.prompt_systeme}\n\n{prompt_base}"
+
+        return prompt_base
+
+    def _analyser_avec_ollama(self, image_base64: str, prompt: str) -> Optional[str]:
+        """
+        Envoie l'image à Ollama pour analyse.
+
+        Args:
+            image_base64: Image en base64
+            prompt: Prompt d'analyse
+
+        Returns:
+            Texte de l'analyse ou None
+        """
+        try:
+            # Préparer la requête
+            payload = {
+                "model": self.ollama_model,
+                "prompt": prompt,
+                "images": [image_base64],
+                "stream": False,
+                "options": {
+                    "temperature": self.temperature,
+                    "num_predict": self.max_tokens,
+                }
+            }
+
+            # Appeler l'API Ollama
+            response = requests.post(
+                f"{self.ollama_url}/api/generate",
+                json=payload,
+                timeout=self.timeout_ms / 1000
+            )
+
+            if response.status_code == 200:
+                result = response.json()
+                return result.get('response', '').strip()
+            else:
+                print(f"⚠️ Erreur Ollama: {response.status_code} - {response.text[:200]}")
+                return None
+
+        except requests.exceptions.Timeout:
+            print(f"⚠️ Timeout Ollama après {self.timeout_ms}ms")
+            return None
+
+        except requests.exceptions.ConnectionError:
+            print(f"⚠️ Ollama non accessible à {self.ollama_url}")
+            return self._fallback_analyse(prompt)
+
+        except Exception as e:
+            print(f"⚠️ Erreur Ollama: {e}")
+            return None
+
+    def _fallback_analyse(self, prompt: str) -> Optional[str]:
+        """
+        Fallback si Ollama n'est pas disponible.
+
+        Args:
+            prompt: Prompt original
+
+        Returns:
+            Message d'erreur informatif
+        """
+        return f"[Analyse IA non disponible - Ollama non accessible]\nPrompt demandé: {prompt[:100]}..."
+
+    def get_action_info(self) -> Dict[str, Any]:
+        """Retourne les informations de l'action."""
+        return {
+            'action_id': self.action_id,
+            'name': self.name,
+            'description': self.description,
+            'type': 'analyser_avec_ia',
+            'parameters': {
+                'type_analyse': self.type_analyse,
+                'prompt': self.prompt[:50] + '...' if len(self.prompt) > 50 else self.prompt,
+                'model': self.ollama_model,
+                'variable_sortie': self.variable_sortie
+            },
+            'status': self.current_status.value
+        }
+
+
+# Alias pour compatibilité avec le catalogue anglais
+VWBAIAnalyzeTextAction = VWBAnalyserAvecIAAction