La reducción de alucinaciones es excelente, pero algunos de estos puntos de referencia parecen ser mejoras relativamente pequeñas en una comparación directa. En Aider Polyglot, sin pensar, 5 es 0.9 puntos más alto que 4o. En MMMU, 2.2 puntos más alto que 4o.
Carl Vellotti
Carl Vellotti8 ago, 01:12
Los benchmarks de GPT-5 acaban de salir – mucho mejor en programación – razonamiento visual más alto que el de los PhDs humanos – gran disminución en las alucinaciones Veremos cómo se desarrollan estos benchmarks, pero se ven increíbles
¡Todavía emocionado de usarlo!
3.04K