Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

estos rastros de razonamiento me han mantenido despierto por la noche a la izquierda: nuevo modelo de OpenAI que obtuvo oro IMO a la derecha: DeepSeek R1 en un problema matemático aleatorio debes darte cuenta de que desde el año pasado la academia ha producido más de MIL artículos sobre razonamiento (probablemente muchos más). todos estamos pensando prácticamente en el razonamiento pero todos nuestros sistemas producen 'rastros de pensamiento' que se parecen a DeepSeek a la derecha. son increíblemente, obnoxiosamente verbosos, consumiendo tokens a un ritmo casi negligente. gran parte del razonamiento es innecesario y parte de él es completamente incorrecto pero el razonamiento a la izquierda, esta nueva cosa, es algo completamente diferente. claramente un cambio de función escalonada. potencialmente un método diferente por completo está mucho más cerca del razonamiento *real*. no se desperdician tokens. si acaso, es excepcionalmente conciso; adivinaría que las soluciones humanas son más verbosas que esto claramente está sucediendo algo muy diferente. tal vez OpenAI desarrolló un proceso de entrenamiento RLVR completamente nuevo. tal vez hay alguna recolección de datos especial de expertos. tal vez comenzaron a penalizar al modelo por pensar en exceso de una manera que realmente le beneficia de alguna manera realmente cosas fascinantes... en general, esto me hace ser pesimista sobre el razonamiento estilo R1

@marlboro_andres sí, unos pocos:

152.27K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas