De vermindering van hallucinaties is geweldig, maar sommige van deze benchmarks lijken relatief kleine verbeteringen op een appels-voor-appels basis. Op Aider Polyglot, zonder na te denken, is 5 0,9 punten hoger dan 4o. Op MMMU, 2,2 punten hoger dan 4o.
Carl Vellotti
Carl Vellotti8 aug 2025
GPT-5 benchmarks zijn net vrijgegeven – veel beter in coderen – visueel redeneren hoger dan menselijke PhD's – enorme daling in hallucinaties We zullen zien hoe deze benchmarks zich ontwikkelen, maar ze zien er gek uit
Nog steeds enthousiast om te gebruiken!
3,09K