rpa_vision_v3/models/README.md

# Modèles ML - RPA Vision V3

Ce répertoire contient les modèles de machine learning utilisés par le système.

## Modèles Actuels

### OpenCLIP (Embeddings)
- **Emplacement actuel** : `~/.cache/huggingface/hub/models--timm--vit_base_patch32_clip_224.openai`
- **Taille** : 578MB
- **Usage** : Génération d'embeddings image/texte (512D)
- **Chargé par** : `core/embedding/clip_embedder.py`

### OWL-v2 (Détection UI)
- **Emplacement actuel** : `~/.cache/huggingface/hub/models--google--owlv2-base-patch16-ensemble`
- **Taille** : 593MB
- **Usage** : Détection zero-shot d'éléments UI
- **Chargé par** : `core/detection/owl_detector.py`

### Qwen3-VL (Raisonnement Visuel)
- **Emplacement** : Via Ollama (`~/.ollama/models/`)
- **Taille** : ~4.7GB
- **Usage** : Classification et raisonnement visuel
- **Chargé par** : `core/detection/ollama_client.py`

## Migration vers Stockage Local

Pour stocker les modèles localement (comme dans la V2), utiliser :

```python
# Pour CLIP
from transformers import CLIPModel
model = CLIPModel.from_pretrained(
    "openai/clip-vit-base-patch32",
    cache_dir="./models/openclip"
)

# Pour OWL-v2
from transformers import Owlv2ForObjectDetection
model = Owlv2ForObjectDetection.from_pretrained(
    "google/owlv2-base-patch16-ensemble",
    cache_dir="./models/owl_v2"
)
```

## Vérification

```bash
# Vérifier les modèles HuggingFace
du -sh ~/.cache/huggingface/hub/models--*

# Vérifier Ollama
ollama list
```