Leaderboard

	Model	Success Rate (%)	Average Score (%)	Average Steps	Max Steps
	Human Baseline	80	90	-	-
Difficulty breakdown Easy Success Rate 88% Average Score 92% Average Steps - Medium Success Rate 78% Average Score 89% Average Steps - Hard Success Rate 68% Average Score 88% Average Steps -
	GPT-5.5 (Medium)	63	78	13.70	30
Difficulty breakdown Easy Success Rate 76% Average Score 87% Average Steps 9.83 Medium Success Rate 62% Average Score 75% Average Steps 13.77 Hard Success Rate 41% Average Score 67% Average Steps 20.13
	API Baseline (Claude-4.5-Opus)	62	81	-	-
Difficulty breakdown Easy Success Rate 80% Average Score 93% Average Steps - Medium Success Rate 63% Average Score 82% Average Steps - Hard Success Rate 30% Average Score 61% Average Steps -
	Claude-Opus-4.8 (High)	62	78	14.13	30
Difficulty breakdown Easy Success Rate 74% Average Score 84% Average Steps 9.30 Medium Success Rate 62% Average Score 76% Average Steps 14.13 Hard Success Rate 41% Average Score 67% Average Steps 22.33
	Claude-4.5-Opus	45	57	20.96	30
Difficulty breakdown Easy Success Rate 56% Average Score 67% Average Steps 16.83 Medium Success Rate 38% Average Score 52% Average Steps 22.86 Hard Success Rate 35% Average Score 48% Average Steps 25.52
	Claude-4-Sonnet	42	53	12.31	30
Difficulty breakdown Easy Success Rate 55% Average Score 61% Average Steps 9.87 Medium Success Rate 42% Average Score 57% Average Steps 12.74 Hard Success Rate 17% Average Score 33% Average Steps 15.92
	Computer-Use-Preview	38	49	21.68	30
Difficulty breakdown Easy Success Rate 47% Average Score 51% Average Steps 19.17 Medium Success Rate 35% Average Score 54% Average Steps 21.98 Hard Success Rate 20% Average Score 36% Average Steps 25.69
	OpenCUA-32B	28	42	16.27	30
Difficulty breakdown Easy Success Rate 40% Average Score 50% Average Steps 13.37 Medium Success Rate 25% Average Score 43% Average Steps 14.89 Hard Success Rate 11% Average Score 28% Average Steps 23.02
	OpenCUA-7B	24	36	19.22	30
Difficulty breakdown Easy Success Rate 36% Average Score 43% Average Steps 15.93 Medium Success Rate 22% Average Score 38% Average Steps 19.47 Hard Success Rate 7% Average Score 22% Average Steps 24.48
	Qwen3-VL-8B	16	27	22.58	30
Difficulty breakdown Easy Success Rate 25% Average Score 33% Average Steps 19.37 Medium Success Rate 14% Average Score 25% Average Steps 22.68 Hard Success Rate 3% Average Score 18% Average Steps 27.94
	Qwen3-VL-32B	14	23	23.24	30
Difficulty breakdown Easy Success Rate 18% Average Score 24% Average Steps 22.06 Medium Success Rate 12% Average Score 21% Average Steps 22.41 Hard Success Rate 11% Average Score 22% Average Steps 26.32