# Modèles ML - RPA Vision V3 Ce répertoire contient les modèles de machine learning utilisés par le système. ## Modèles Actuels ### OpenCLIP (Embeddings) - **Emplacement actuel** : `~/.cache/huggingface/hub/models--timm--vit_base_patch32_clip_224.openai` - **Taille** : 578MB - **Usage** : Génération d'embeddings image/texte (512D) - **Chargé par** : `core/embedding/clip_embedder.py` ### OWL-v2 (Détection UI) - **Emplacement actuel** : `~/.cache/huggingface/hub/models--google--owlv2-base-patch16-ensemble` - **Taille** : 593MB - **Usage** : Détection zero-shot d'éléments UI - **Chargé par** : `core/detection/owl_detector.py` ### Qwen3-VL (Raisonnement Visuel) - **Emplacement** : Via Ollama (`~/.ollama/models/`) - **Taille** : ~4.7GB - **Usage** : Classification et raisonnement visuel - **Chargé par** : `core/detection/ollama_client.py` ## Migration vers Stockage Local Pour stocker les modèles localement (comme dans la V2), utiliser : ```python # Pour CLIP from transformers import CLIPModel model = CLIPModel.from_pretrained( "openai/clip-vit-base-patch32", cache_dir="./models/openclip" ) # Pour OWL-v2 from transformers import Owlv2ForObjectDetection model = Owlv2ForObjectDetection.from_pretrained( "google/owlv2-base-patch16-ensemble", cache_dir="./models/owl_v2" ) ``` ## Vérification ```bash # Vérifier les modèles HuggingFace du -sh ~/.cache/huggingface/hub/models--* # Vérifier Ollama ollama list ```