La reducción de alucinaciones es excelente, pero algunas de estas referencias parecen mejoras relativamente pequeñas en una comparación directa. En Aider Polyglot, sin pensar, 5 es 0.9 puntos más alto que 4o. En MMMU, 2.2 puntos más alto que 4o.
Carl Vellotti
Carl Vellotti8 ago 2025
Los benchmarks de GPT-5 acaban de salir – mucho mejor en programación – razonamiento visual más alto que el de los PhDs humanos – gran disminución en las alucinaciones Veremos cómo se desarrollan estos benchmarks, pero parecen increíbles
¡Sigo emocionado por usarlo!
3,08K