Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es intuitivamente fácil entender por qué el autojuego *puede* funcionar para los LLMs, si somos capaces de proporcionar una función de valor en pasos intermedios (aunque no tan claramente garantizada como en juegos de suma cero de dos jugadores).
En ajedrez / go / póker, tenemos una recompensa asociada con cada siguiente movimiento, pero como señala Noam, el lenguaje natural es desordenado. Es difícil definir una función de valor en pasos intermedios como los tokens. Como resultado, en el aprendizaje por refuerzo habitual (como RLVR), los LLMs obtienen una recompensa al final. Terminan aprendiendo a 'divagar' más en problemas difíciles. De alguna manera, recompensamos la fuerza bruta con más tokens para llegar a la respuesta correcta como el enfoque correcto.
Sin embargo, en @DeepCogito, proporcionamos una señal para el proceso de pensamiento en sí. Conceptualmente, puedes imaginar esto como asignar posteriormente una recompensa a mejores trayectorias de búsqueda. Esto enseña al modelo a desarrollar una intuición más fuerte sobre 'cómo buscar' mientras razona.
En la práctica, el modelo termina con cadenas de razonamiento significativamente más cortas para problemas más difíciles en un modo de razonamiento. Algo sorprendentemente, también termina siendo mejor en un modo no pensante. Una forma de pensarlo es que, dado que el modelo sabe cómo buscar mejor, 'elige' la trayectoria más probable mejor en el modo no pensante.
Parte superior
Clasificación
Favoritos

