Jak GPT-5 wypada w porównaniu do Claude Opus 4.1 w zadaniach agentowych? Od ich wydania oceniamy te modele w trudnych zadaniach z zakresu nauki, internetu, usług i kodowania. Główne wyniki: Choć kosztowo efektywny, jak dotąd GPT-5 nigdy nie zajmował pierwszego miejsca w rankingach agentowych. Więcej ocen 🧵
Wiele z tych wyników nas zaskoczyło i planujemy je dokładniej zbadać. Jednak trendy w tych benchmarkach potwierdzają, że GPT-5 nie jest rewolucyjną zmianą i nie poprawia innych modeli OpenAI. Ale wyróżnia się w kwestii kosztów i dokładności — często jest znacznie tańszy niż porównywalne modele.
56,62K