Hallusinasjonsreduksjonen er stor, men noen av disse referansene virker som relativt små forbedringer på eple-til-eple-basis. På Aider Polyglot, uten å tenke, er 5 0.9 poeng høyere enn 4o. På MMMU, 2.2 poeng høyere enn 4o.
Carl Vellotti
Carl Vellotti8. aug. 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Fortsatt spent på å bruke!
3,06K