De vermindering van hallucinaties is geweldig, maar sommige van deze benchmarks lijken relatief kleine verbeteringen op een appels-voor-appels basis. Op Aider Polyglot, zonder na te denken, is 5 0,9 punten hoger dan 4o. Op MMMU, 2,2 punten hoger dan 4o.
Carl Vellotti
Carl Vellotti8 aug 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Nog steeds enthousiast om te gebruiken!
3,08K