La riduzione delle allucinazioni è ottima, ma alcuni di questi parametri sembrano miglioramenti relativamente piccoli su una base di confronto diretta. Su Aider Polyglot, senza pensarci, 5 è 0,9 punti più alto di 4o. Su MMMU, 2,2 punti più alto di 4o.
Carl Vellotti
Carl Vellotti8 ago 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Ancora entusiasta di usarlo!
3,06K