Minskningen av hallucinationer är stor, men några av dessa riktmärken verkar vara relativt små förbättringar på äpplen-till-äpplen-basis. På Aider Polyglot, utan att tänka, är 5 0,9 poäng högre än 4o. På MMMU, 2,2 poäng högre än 4o.
Carl Vellotti
Carl Vellotti8 aug. 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Fortfarande sugen på att använda!
3,08K