estos rastros de razonamiento me han mantenido despierto por la noche a la izquierda: nuevo modelo de OpenAI que obtuvo oro IMO a la derecha: DeepSeek R1 en un problema matemático aleatorio debes darte cuenta de que desde el año pasado la academia ha producido más de MIL artículos sobre razonamiento (probablemente muchos más). todos estamos pensando prácticamente en el razonamiento pero todos nuestros sistemas producen 'rastros de pensamiento' que se parecen a DeepSeek a la derecha. son increíblemente, obnoxiosamente verbosos, consumiendo tokens a un ritmo casi negligente. gran parte del razonamiento es innecesario y parte de él es completamente incorrecto pero el razonamiento a la izquierda, esta nueva cosa, es algo completamente diferente. claramente un cambio de función escalonada. potencialmente un método diferente por completo está mucho más cerca del razonamiento *real*. no se desperdician tokens. si acaso, es excepcionalmente conciso; adivinaría que las soluciones humanas son más verbosas que esto claramente está sucediendo algo muy diferente. tal vez OpenAI desarrolló un proceso de entrenamiento RLVR completamente nuevo. tal vez hay alguna recolección de datos especial de expertos. tal vez comenzaron a penalizar al modelo por pensar en exceso de una manera que realmente le beneficia de alguna manera realmente cosas fascinantes... en general, esto me hace ser pesimista sobre el razonamiento estilo R1
@marlboro_andres sí, unos pocos:
Alexander Wei
Alexander Wei19 jul 2025
4/N En segundo lugar, las presentaciones de la OMI son pruebas de varias páginas difíciles de verificar. El progreso aquí exige ir más allá del paradigma de RL de recompensas claras y verificables. Al hacerlo, hemos obtenido un modelo que puede elaborar argumentos intrincados y herméticos al nivel de los matemáticos humanos.
152.27K