Hallusinaatioiden väheneminen on hienoa, mutta jotkut näistä vertailuarvoista näyttävät suhteellisen pieniltä parannuksilta omenoista omenoihin -periaatteella. Aider Polyglotissa, ajattelematta, 5 on 0,9 pistettä korkeampi kuin 4o. MMMU:ssa 2,2 pistettä korkeampi kuin 4o.
Carl Vellotti
Carl Vellotti8.8.2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Edelleen innoissani käytöstä!
3,09K