SWE-AGI Leaderboard

2880 shaares
32 private links

2880 shaares · 32 private links

Filters

Links per page

20 50 100

SWE-AGI Leaderboard

Across frontier models, gpt-5.3-codex achieves the best overall performance (solving 19/22 tasks, 86.4%), outperforming claude-opus-4.6 (15/22, 68.2%), and kimi-2.5 exhibits the strongest performance among open-source models

ai · benchmark

February 11, 2026 at 10:13:15 AM EST * · permalink

https://swe-agi.com/

Filters

Links per page

20 50 100