Minskningen av hallucinationer är stor, men några av dessa riktmärken verkar vara relativt små förbättringar på äpplen-till-äpplen-basis. På Aider Polyglot, utan att tänka, är 5 0,9 poäng högre än 4o. På MMMU, 2,2 poäng högre än 4o.
Carl Vellotti
Carl Vellotti8 aug. 2025
GPT-5-benchmarks har precis sjunkit – mycket bättre på kodning – Visuellt resonemang högre än mänskliga doktorsexamen – Enorm minskning av hallucinationer Vi får se hur dessa benchmarks utspelar sig, men de ser galna ut
Fortfarande sugen på att använda!
3,08K