Die Reduzierung von Halluzinationen ist großartig, aber einige dieser Benchmarks scheinen im direkten Vergleich relativ kleine Verbesserungen zu sein. Auf Aider Polyglot ist 5 ohne Nachdenken 0,9 Punkte höher als 4o. Auf MMMU ist es 2,2 Punkte höher als 4o.
Carl Vellotti
Carl Vellotti8. Aug., 01:12
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
Immer noch aufgeregt, es zu benutzen!
3,05K