Es intuitivamente fácil entender por qué el autojuego *puede* funcionar para los LLM, si somos capaces de proporcionar una función de valor en pasos intermedios (aunque no tan claramente garantizado como en los juegos de suma cero de dos jugadores). En el ajedrez / go / póquer, tenemos una recompensa asociada con cada próximo movimiento, pero como señala Noam, el lenguaje natural es desordenado. Es difícil definir una función de valor en pasos intermedios como los tokens. Como resultado, en el aprendizaje por refuerzo habitual (como RLVR), los LLM obtienen una recompensa al final. Terminan aprendiendo a "deambular" más por problemas difíciles. En cierto modo, recompensamos la fuerza bruta con más fichas para terminar en la respuesta correcta como el enfoque correcto. Sin embargo, en @DeepCogito, proporcionamos una señal para el proceso de pensamiento en sí. Conceptualmente, puede imaginar esto como una asignación post-hoc de una recompensa a mejores trayectorias de búsqueda. Esto le enseña al modelo a desarrollar una intuición más fuerte sobre "cómo buscar" mientras razona. En la práctica, el modelo termina con cadenas de razonamiento significativamente más cortas para problemas más difíciles en un modo de razonamiento. Sorprendentemente, también termina siendo mejor en un modo no pensante. Una forma de pensarlo es que, dado que el modelo sabe cómo buscar mejor, "elige" mejor la trayectoria más probable en el modo no pensante.