A muchas personas les gusta comparar diferentes clases de modelos como "razonamiento" o "no razonamiento", cuando en realidad ahora todos están entrenados con una buena cantidad de las mismas técnicas de aprendizaje por refuerzo (y otras cosas). La visión correcta es ver cada lanzamiento de modelo en un espectro de esfuerzo de razonamiento. Muchos dicen que Claude es un modelo sin razonamiento, sin embargo, fueron uno de los primeros en tener tokens especiales y una experiencia de usuario para "pensar profundamente, espera" (mucho antes de su modo de pensamiento extendido). Lo mismo podría ser cierto para DeepSeek v3.1, que se ha lanzado pero aún no es fácil de usar. No tenemos idea de cuántos tokens por respuesta se utilizan en las versiones de chat de estos modelos por defecto. Las API con conteos exactos de tokens son la única fuente de verdad y deberían comunicarse con mucha más frecuencia. Luego, dentro de los modelos de razonamiento, hay una gran variación en el número de tokens utilizados. El precio de los modelos debería ser la consideración final del esfuerzo, una mezcla del total de parámetros activos y el número de tokens utilizados. Escuchando a Dylan Patel en el podcast de a16z, parece que una de las grandes victorias de GPT-5 en el modo de pensamiento que me encanta (similar a o3) fue obtener resultados ligeramente mejores con casi un 50% menos de tokens. He sentido esto un poco, es simplemente más eficiente en la tarea que o3. Otro punto es que la segunda generación de R1, R1-0528, mejoró las puntuaciones utilizando mucho más razonamiento. Qwen ha sido similar. Esto no siempre es super valioso para el usuario. A nivel técnico, resolvemos esto reportando el número de tokens utilizados por modelo en los resultados de evaluación (especialmente en relación con los pares). El problema es que los lanzamientos de IA ahora son bastante convencionales y es un detalle técnico matizado para comunicar. En el lado de la investigación, por ejemplo, puedes aumentar significativamente tus puntuaciones de evaluación evaluando tu modelo de razonamiento en un contexto más largo que tus pares. El esfuerzo de razonamiento en tokens, y a veces en el aviso del sistema, es ahora una variable compleja pero no un simple sí/no en todos estos lanzamientos. A continuación hay una captura de pantalla de una publicación que discute esto antes de que se lanzara o1 (12 de septiembre del año pasado) y una captura de pantalla de un usuario de reddit que descubrió el comportamiento de pensamiento de Claude. Guardo este desahogo para referencia futura porque necesito repetirlo todo el tiempo.
25,62K