DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Es intuitivamente fácil entender por qué el autojuego *puede* funcionar para los LLMs, si somos capaces de proporcionar una función de valor en pasos intermedios (aunque no tan claramente garantizada como en juegos de suma cero de dos jugadores). En ajedrez / go / póker, tenemos una recompensa asociada con cada siguiente movimiento, pero como señala Noam, el lenguaje natural es desordenado. Es difícil definir una función de valor en pasos intermedios como los tokens. Como resultado, en el aprendizaje por refuerzo habitual (como RLVR), los LLMs obtienen una recompensa al final. Terminan aprendiendo a 'divagar' más en problemas difíciles. De alguna manera, recompensamos la fuerza bruta con más tokens para llegar a la respuesta correcta como el enfoque correcto. Sin embargo, en @DeepCogito, proporcionamos una señal para el proceso de pensamiento en sí. Conceptualmente, puedes imaginar esto como asignar posteriormente una recompensa a mejores trayectorias de búsqueda. Esto enseña al modelo a desarrollar una intuición más fuerte sobre 'cómo buscar' mientras razona. En la práctica, el modelo termina con cadenas de razonamiento significativamente más cortas para problemas más difíciles en un modo de razonamiento. Algo sorprendentemente, también termina siendo mejor en un modo no pensante. Una forma de pensarlo es que, dado que el modelo sabe cómo buscar mejor, 'elige' la trayectoria más probable mejor en el modo no pensante.

Parte superior

Clasificación

Favoritos