Reducerea halucinațiilor este grozavă, dar unele dintre aceste repere par a fi îmbunătățiri relativ mici pe bază de mere cu mere. Pe Aider Polyglot, fără să te gândești, 5 este cu 0,9 puncte mai mare decât 4o. Pe MMMU, cu 2,2 puncte mai mare decât 4o.
Carl Vellotti
Carl Vellotti8 aug. 2025
Benchmark-urile GPT-5 tocmai au fost abandonate – mult mai bun la codare – raționament vizual mai mare decât doctoratele umane – scădere uriașă a halucinațiilor Vom vedea cum se desfășoară aceste repere, dar par nebunești
Încă încântat de utilizat!
3,08K