Hvordan er GPT-5 sammenlignet med Claude Opus 4.1 på agentiske oppgaver? Siden utgivelsen har vi evaluert disse modellene på utfordrende vitenskaps-, nett-, tjeneste- og kodeoppgaver. Overskriftsresultat: Selv om GPT-5 er kostnadseffektivt, topper GPT-5 så langt aldri agentiske topplister. Flere evals 🧵
Mange av disse resultatene overrasket oss, og vi planlegger å undersøke dem nærmere. Men trender på tvers av disse referansene bekrefter at GPT-5 ikke er en trinnvis endring, og ikke forbedrer OpenAIs andre modeller. Men det skinner i avveiningene mellom kostnad og nøyaktighet - ofte mye billigere enn sammenlignbare modeller.
56,62K