Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoe verhoudt GPT-5 zich tot Claude Opus 4.1 op agenttaken?
Sinds hun release hebben we deze modellen geëvalueerd op uitdagende taken op het gebied van wetenschap, web, service en code.
Hoofdresultaat: Hoewel kosteneffectief, staat GPT-5 tot nu toe nooit bovenaan de agentische ranglijsten. Meer evaluaties 🧵

Veel van deze resultaten verrasten ons, en we zijn van plan om ze nader te onderzoeken. Maar de trends in deze benchmarks bevestigen dat GPT-5 geen stapverandering is en niet verbetert ten opzichte van de andere modellen van OpenAI. Maar het blinkt uit in de kosten-nauwkeurigheid trade-offs — vaak veel goedkoper dan vergelijkbare modellen.
56,63K
Boven
Positie
Favorieten