La reducción de alucinaciones es excelente, pero algunos de estos puntos de referencia parecen ser mejoras relativamente pequeñas en una comparación directa. En Aider Polyglot, sin pensar, 5 es 0.9 puntos más alto que 4o. En MMMU, 2.2 puntos más alto que 4o.
Carl Vellotti
Carl Vellotti8 ago 2025
GPT-5 benchmarks just dropped – much better at coding – visual reasoning higher than human phds – huge drop in hallucination We'll see how these benchmarks play out, but they look crazy
¡Todavía emocionado de usarlo!
3.07K