Me pregunto cuán diferentes son las cadenas de pensamiento de gpt-oss de las reales detrás de GPT-5. ¿Han inventado un esquema de RL de tres niveles completamente separado para oss, solo para no dejar escapar ningún alfa REAL? De lo contrario, ¿por qué este elaborado juego con un ligero retraso y resúmenes de párrafos?
2,26K