Hoe verhoudt GPT-5 zich tot Claude Opus 4.1 op agenttaken? Sinds hun release hebben we deze modellen geëvalueerd op uitdagende taken op het gebied van wetenschap, web, service en code. Hoofdresultaat: Hoewel kosteneffectief, staat GPT-5 tot nu toe nooit bovenaan de agentische ranglijsten. Meer evaluaties 🧵
Veel van deze resultaten verrasten ons, en we zijn van plan om ze nader te onderzoeken. Maar de trends in deze benchmarks bevestigen dat GPT-5 geen stapverandering is en niet verbetert ten opzichte van de andere modellen van OpenAI. Maar het blinkt uit in de kosten-nauwkeurigheid trade-offs — vaak veel goedkoper dan vergelijkbare modellen.
56,63K