Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
estos rastros de razonamiento me han mantenido despierto por la noche
a la izquierda: nuevo modelo de OpenAI que obtuvo oro IMO
a la derecha: DeepSeek R1 en un problema matemático aleatorio
debes darte cuenta de que desde el año pasado la academia ha producido más de MIL artículos sobre razonamiento (probablemente muchos más). todos estamos pensando prácticamente en el razonamiento
pero todos nuestros sistemas producen 'rastros de pensamiento' que se parecen a DeepSeek a la derecha. son increíblemente, obnoxiosamente verbosos, consumiendo tokens a un ritmo casi negligente. gran parte del razonamiento es innecesario y parte de él es completamente incorrecto
pero el razonamiento a la izquierda, esta nueva cosa, es algo completamente diferente. claramente un cambio de función escalonada. potencialmente un método diferente por completo
está mucho más cerca del razonamiento *real*. no se desperdician tokens. si acaso, es excepcionalmente conciso; adivinaría que las soluciones humanas son más verbosas que esto
claramente está sucediendo algo muy diferente. tal vez OpenAI desarrolló un proceso de entrenamiento RLVR completamente nuevo. tal vez hay alguna recolección de datos especial de expertos. tal vez comenzaron a penalizar al modelo por pensar en exceso de una manera que realmente le beneficia de alguna manera
realmente cosas fascinantes... en general, esto me hace ser pesimista sobre el razonamiento estilo R1


@marlboro_andres sí, unos pocos:

19 jul 2025
4/N En segundo lugar, las presentaciones de la OMI son pruebas de varias páginas difíciles de verificar. El progreso aquí exige ir más allá del paradigma de RL de recompensas claras y verificables. Al hacerlo, hemos obtenido un modelo que puede elaborar argumentos intrincados y herméticos al nivel de los matemáticos humanos.




152.27K
Populares
Ranking
Favoritas