Pix2Struct vs CLIP Benchmark Results

Date

2024-11-19

Metric	CLIP ViT-B/32	Pix2Struct Base	Winner
Embedding Dimension	512	768	-
Time per Image	19.78ms	2895.68ms	CLIP (146x faster)
UI Discrimination	0.1636	0.0178	CLIP (9x better)
Model Size	~350MB	~1.13GB	CLIP

Test: Distinguish "Submit" button from "Cancel" button

CLIP:
- Submit vs Submit: 1.0000
- Submit vs Cancel: 0.8364
- Discrimination: 0.1636 ✅
Pix2Struct:
- Submit vs Submit: 1.0000
- Submit vs Cancel: 0.9822
- Discrimination: 0.0178 ❌

Verdict: CLIP discriminates 9x better between different UI elements

Not optimized for simple UI elements: Pix2Struct is designed for complex documents and structured layouts, not simple buttons
Encoder pooling: We use mean pooling of encoder states, which may lose spatial information
Training data mismatch: Pix2Struct was trained on documents/screenshots, but our test is very simple

Use CLIP for GeniusIA v2 RPA

Reasons:

When to consider Pix2Struct:

For GeniusIA v2, use:

embedding_manager = EmbeddingManager(model_name="clip")

Pix2Struct remains available as an option but is not recommended for this use case.

If we want to improve beyond CLIP: