Pipeline replay visuel : - VLM-first : l'agent appelle Ollama directement pour trouver les éléments - Template matching en fallback (seuil strict 0.90) - Stop immédiat si élément non trouvé (pas de clic blind) - Replay depuis session brute (/replay-session) sans attendre le VLM - Vérification post-action (screenshot hash avant/après) - Gestion des popups (Enter/Escape/Tab+Enter) Worker VLM séparé : - run_worker.py : process distinct du serveur HTTP - Communication par fichiers (_worker_queue.txt + _replay_active.lock) - Le serveur HTTP ne fait plus jamais de VLM → toujours réactif - Service systemd rpa-worker.service Capture clavier : - raw_keys (vk + press/release) pour replay exact indépendant du layout - Fix AZERTY : ToUnicodeEx + AltGr detection - Enter capturé comme \n, Tab comme \t - Filtrage modificateurs seuls (Ctrl/Alt/Shift parasites) - Fusion text_input consécutifs, dédup key_combo Sécurité & Internet : - HTTPS Let's Encrypt (lea.labs + vwb.labs.laurinebazin.design) - Token API fixe dans .env.local - HTTP Basic Auth sur VWB - Security headers (HSTS, CSP, nosniff) - CORS domaines publics, plus de wildcard Infrastructure : - DPI awareness (SetProcessDpiAwareness) Python + Rust - Métadonnées système (dpi_scale, window_bounds, monitors, os_theme) - Template matching multi-scale [0.5, 2.0] - Résolution dynamique (plus de hardcode 1920x1080) - VLM prefill fix (47x speedup, 3.5s au lieu de 180s) Modules : - core/auth/ : credential vault (Fernet AES), TOTP (RFC 6238), auth handler - core/federation/ : LearningPack export/import anonymisé, FAISS global - deploy/ : package Léa (config.txt, Lea.bat, install.bat, LISEZMOI.txt) UX : - Filtrage OS (VWB + Chat montrent que les workflows de l'OS courant) - Bibliothèque persistante (cache local + SQLite) - Clustering hybride (titre fenêtre + DBSCAN) - EdgeConstraints + PostConditions peuplés - GraphBuilder compound actions (toutes les frappes) Agent Rust : - Token Bearer auth (network.rs) - sysinfo.rs (DPI, résolution, window bounds via Win32 API) - config.txt lu automatiquement - Support Chrome/Brave/Firefox (pas que Edge) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
93 lines
3.5 KiB
Python
93 lines
3.5 KiB
Python
# agent_v1/config.py
|
|
"""
|
|
Configuration avancée pour Agent V1.
|
|
"""
|
|
from __future__ import annotations
|
|
import os
|
|
import platform
|
|
import socket
|
|
from pathlib import Path
|
|
|
|
# --- DPI awareness (DOIT etre appele avant tout import de pynput/mss/tkinter) ---
|
|
# Rend le process DPI-aware sur Windows pour que toutes les API (pynput, mss, pyautogui)
|
|
# travaillent en coordonnees physiques (pixels reels) au lieu de coordonnees logiques
|
|
# (virtualisees par le DPI scaling).
|
|
# Sans cet appel, un ecran 2560x1600 a 150% DPI apparait comme 1707x1067 pour les API,
|
|
# ce qui cause des erreurs de positionnement pendant le replay.
|
|
# Sur Linux/Mac : no-op silencieux.
|
|
# PROCESS_PER_MONITOR_DPI_AWARE = 2 : le niveau le plus precis.
|
|
if platform.system() == "Windows":
|
|
try:
|
|
import ctypes
|
|
ctypes.windll.shcore.SetProcessDpiAwareness(2) # PROCESS_PER_MONITOR_DPI_AWARE
|
|
except Exception:
|
|
try:
|
|
# Fallback pour Windows < 8.1 (API plus ancienne)
|
|
ctypes.windll.user32.SetProcessDPIAware()
|
|
except Exception:
|
|
pass
|
|
|
|
AGENT_VERSION = "1.0.0"
|
|
|
|
# Identifiant unique de la machine (utilisé pour le multi-machine)
|
|
# Configurable via variable d'environnement, sinon auto-généré depuis hostname + OS
|
|
MACHINE_ID = os.environ.get(
|
|
"RPA_MACHINE_ID",
|
|
f"{socket.gethostname()}_{platform.system().lower()}",
|
|
)
|
|
|
|
# Dossier racine de l'agent
|
|
BASE_DIR = Path(__file__).resolve().parent
|
|
|
|
# Endpoint du serveur Streaming (port 5005)
|
|
SERVER_URL = os.getenv("RPA_SERVER_URL", "http://localhost:5005/api/v1")
|
|
UPLOAD_ENDPOINT = f"{SERVER_URL}/traces/upload"
|
|
STREAMING_ENDPOINT = f"{SERVER_URL}/traces/stream"
|
|
|
|
# Token d'authentification API (doit correspondre au token du serveur)
|
|
# Configurable via variable d'environnement RPA_API_TOKEN
|
|
API_TOKEN = os.environ.get("RPA_API_TOKEN", "")
|
|
|
|
# Paramètres de session
|
|
MAX_SESSION_DURATION_S = 60 * 60 # 1 heure
|
|
SESSIONS_ROOT = BASE_DIR / "sessions"
|
|
|
|
# Paramètres Vision (Crops pour qwen3-vl)
|
|
TARGETED_CROP_SIZE = (150, 150)
|
|
SCREENSHOT_QUALITY = 85
|
|
|
|
# Floutage des données sensibles (conformité AI Act)
|
|
# Floute les champs de saisie dans les screenshots AVANT stockage/envoi
|
|
# Désactiver avec RPA_BLUR_SENSITIVE=false pour le développement/tests
|
|
BLUR_SENSITIVE = os.environ.get("RPA_BLUR_SENSITIVE", "true").lower() in ("true", "1", "yes")
|
|
|
|
# Retention des logs — minimum 6 mois (180 jours) requis par le Reglement IA
|
|
# (Article 12 — journalisation automatique, Article 26(6) — conservation minimum)
|
|
# Configurable via variable d'environnement pour permettre l'ajustement
|
|
LOG_RETENTION_DAYS = int(os.environ.get("RPA_LOG_RETENTION_DAYS", "180"))
|
|
|
|
# Monitoring
|
|
PERF_MONITOR_INTERVAL_S = 30
|
|
LOGS_DIR = BASE_DIR / "logs"
|
|
LOG_FILE = LOGS_DIR / "agent_v1.log"
|
|
|
|
# --- Métadonnées système (capturées au chargement du module) ---
|
|
# Utilisées pour la bannière de démarrage et le diagnostic.
|
|
# Import tardif pour éviter les dépendances circulaires.
|
|
try:
|
|
from .vision.system_info import get_dpi_scale, get_os_theme, get_monitor_info
|
|
_monitor_index, _monitors = get_monitor_info()
|
|
_primary = _monitors[0] if _monitors else {"width": 1920, "height": 1080}
|
|
SCREEN_RESOLUTION = (_primary["width"], _primary["height"])
|
|
DPI_SCALE = get_dpi_scale()
|
|
OS_THEME = get_os_theme()
|
|
except Exception:
|
|
# Fallback silencieux si les métadonnées ne sont pas disponibles
|
|
SCREEN_RESOLUTION = (1920, 1080)
|
|
DPI_SCALE = 100
|
|
OS_THEME = "unknown"
|
|
|
|
# Création des dossiers
|
|
os.makedirs(SESSIONS_ROOT, exist_ok=True)
|
|
os.makedirs(LOGS_DIR, exist_ok=True)
|