Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hvordan er GPT-5 sammenlignet med Claude Opus 4.1 på agentiske oppgaver?
Siden utgivelsen har vi evaluert disse modellene på utfordrende vitenskaps-, nett-, tjeneste- og kodeoppgaver.
Overskriftsresultat: Selv om GPT-5 er kostnadseffektivt, topper GPT-5 så langt aldri agentiske topplister. Flere evals 🧵

Mange av disse resultatene overrasket oss, og vi planlegger å undersøke dem nærmere. Men trender på tvers av disse referansene bekrefter at GPT-5 ikke er en trinnvis endring, og ikke forbedrer OpenAIs andre modeller. Men det skinner i avveiningene mellom kostnad og nøyaktighet - ofte mye billigere enn sammenlignbare modeller.
56,62K
Topp
Rangering
Favoritter