¿Tienes curiosidad sobre los datos de entrenamiento de los nuevos modelos gpt-oss de OpenAI? Yo también. Así que generé 10 millones de ejemplos de gpt-oss-20b, realicé un análisis y los resultados fueron... bastante extraños. Es hora de un análisis profundo 🧵
aquí hay un mapa de las generaciones incrustadas el modelo ama las matemáticas y el código. lo impulso con nada y, sin embargo, siempre razona. solo habla de matemáticas y código, y principalmente en inglés matemáticas – probabilidad, ML, PDEs, topología, ecuaciones diferenciales código – software agente, programación competitiva, ciencia de datos
lo primero que hay que notar es que prácticamente ninguna de las generaciones se asemeja al texto web natural. pero sorprendentemente, ninguna de ellas parece interacciones normales de chatbot tampoco. esta cosa claramente ha sido entrenada a través de RL para pensar y resolver tareas para benchmarks de razonamiento específicos. nada más.
y realmente es un modelo torturado. aquí el modelo alucina un problema de programación sobre dominós e intenta resolverlo, gastando más de 30,000 tokens en el proceso completamente sin ser solicitado, el modelo generó e intentó resolver este problema de dominós más de 5,000 veces separadas.
ejecuté un clasificador sobre las salidas para tener una idea de qué lenguajes de programación conoce gpt-oss parece que han entrenado en casi todo lo que has escuchado. especialmente mucho Perl (por cierto, según mi análisis, Java y Kotlin deberían estar mucho más arriba. el clasificador puede haberse equivocado)
lo que no puedes ver en el mapa es que muchas de las cadenas comienzan en inglés pero descienden lentamente hacia el Neuralese las cadenas de razonamiento alternan felizmente entre árabe, ruso, tailandés, coreano, chino y ucraniano. luego, generalmente regresan al inglés (pero no siempre)
la conjetura OCR: algunos ejemplos incluyen artefactos como OCRV ROOT, que indican que los datos de entrenamiento pueden haber sido leyendo entre líneas: OpenAI está escaneando libros (por alguna razón, al modelo le encanta mencionar cuántas personas sordas viven en Malasia)
¿Cuáles son algunas explicaciones para el cambio constante de códigos? 1. OpenAI ha descubierto el RL. los modelos ya no hablan inglés 2. problemas de corrupción de datos a través de OCR o entrenamiento sintético 3. de alguna manera, forcé al modelo a generar demasiados tokens y gradualmente se desvían de la distribución
hay un pequeño número de salidas creativas intercaladas a lo largo de aquí hay un ejemplo donde el modelo comienza a escribir un guion para un largometraje noruego 🤷‍♂️
también aprendí mucho de este. el modelo es *realmente* bueno usando unicode ...pero podría ser malo en física. ¿qué demonios es una 'función superhalo'?
si quieres probar los datos, aquí los tienes, están en huggingface: ¡déjame saber qué encuentras!
TRABAJO FUTURO – deduplicación a pesar de que varié la semilla aleatoria y usé temperatura, muchos de los resultados son altamente redundantes sería prudente deduplicar, apuesto a que hay solo 100k o menos ejemplos mayormente únicos aquí
TRABAJO FUTURO – describiendo diferencias @ZhongRuiqi tiene un trabajo increíble sobre métodos para describir la diferencia entre dos distribuciones de texto *en lenguaje natural* podríamos comparar las salidas del modelo de 20b con el de 120b, o LLAMA, o GPT-5...
TRABAJO FUTURO – extracción directa estamos trabajando en la extracción directa de datos de entrenamiento de modelos utilizando RL y otros métodos. presentaremos nuestro primer trabajo sobre esto en COLM, y esperamos más en este ámbito. podríamos ser capaces de extraer datos directamente del modelo de 120b... algún día 😎
147.73K