¿Cómo se compara GPT-5 con Claude Opus 4.1 en tareas agentivas? Desde su lanzamiento, hemos estado evaluando estos modelos en tareas desafiantes de ciencia, web, servicio y código. Resultado principal: Aunque es rentable, hasta ahora GPT-5 nunca ha liderado las clasificaciones agentivas. Más evaluaciones 🧵
Muchos de estos resultados nos sorprendieron, y planeamos investigarlos más de cerca. Pero las tendencias a través de estos puntos de referencia confirman que GPT-5 no es un cambio radical, y no mejora los otros modelos de OpenAI. Sin embargo, brilla en la relación costo-precisión, a menudo siendo mucho más barato que modelos comparables.
56,63K