Reducerea halucinațiilor este grozavă, dar unele dintre aceste repere par a fi îmbunătățiri relativ mici pe bază de mere cu mere. Pe Aider Polyglot, fără să te gândești, 5 este cu 0,9 puncte mai mare decât 4o. Pe MMMU, cu 2,2 puncte mai mare decât 4o.
Carl Vellotti
Carl Vellotti8 aug. 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Încă încântat de utilizat!
3,07K