curioso sobre os dados de treino dos novos modelos gpt-oss da OpenAI? Eu também estava. Então, gerei 10M de exemplos do gpt-oss-20b, fiz algumas análises e os resultados foram... bastante bizarros. Hora de uma análise profunda 🧵
aqui está um mapa das gerações incorporadas o modelo adora matemática e código. eu prompto com nada e ainda assim ele sempre raciocina. ele apenas fala sobre matemática e código, e principalmente em inglês matemática – probabilidade, ML, PDEs, topologia, difeq código – software agente, programação competitiva, ciência de dados
a primeira coisa a notar é que praticamente nenhuma das gerações se assemelha a texto da web natural. mas, surpreendentemente, nenhuma delas se parece com interações normais de chatbot também esta coisa é claramente treinada via RL para pensar e resolver tarefas para benchmarks de raciocínio específicos. nada mais.
e realmente é um modelo torturado. aqui o modelo alucina um problema de programação sobre dominós e tenta resolvê-lo, gastando mais de 30.000 tokens no processo completamente sem ser solicitado, o modelo gerou e tentou resolver este problema dos dominós mais de 5.000 vezes separadas.
executei um classificador sobre as saídas para ter uma noção de quais linguagens de programação o gpt-oss conhece eles parecem ter treinado em quase tudo o que você já ouviu falar. especialmente muito Perl (aliás, pela minha análise, Java e Kotlin deveriam estar muito mais altos. o classificador pode ter falhado)
o que não se pode ver no mapa é que muitas das cadeias começam em inglês, mas lentamente descem para o Neuralese a cadeia de raciocínio alterna alegremente entre árabe, russo, tailandês, coreano, chinês e ucraniano. depois geralmente voltam para o inglês (mas nem sempre)
a conjectura OCR: alguns exemplos incluem artefatos como OCRV ROOT, que indicam que os dados de treinamento podem ter sido lendo nas entrelinhas: a OpenAI está a digitalizar livros (por alguma razão, o modelo adora mencionar quantas pessoas surdas vivem na Malásia)
quais são algumas explicações para a alternância constante de códigos? 1. A OpenAI descobriu o RL. os modelos não falam mais inglês 2. problemas de corrupção de dados via OCR ou treinamento sintético 3. de alguma forma, forcei o modelo a gerar muitos tokens e eles gradualmente saem da distribuição
há um pequeno número de saídas criativas intercaladas ao longo aqui está um exemplo onde o modelo começa a escrever um esboço para um roteiro norueguês 🤷‍♂️
também aprendi muito com este. o modelo é *realmente* bom em usar unicode ...mas pode ser mau em física. o que é, afinal, uma 'função superhalo'?
se quiser experimentar os dados, aqui está, está no huggingface: deixe-me saber o que você encontra!
TRABALHO FUTURO – desduplicação mesmo que eu tenha variado a semente aleatória e usado temperatura, muitos dos resultados são altamente redundantes seria prudente desduplicar, aposto que há apenas 100k ou menos exemplos principalmente únicos aqui
TRABALHO FUTURO – descrevendo diferenças @ZhongRuiqi tem um trabalho incrível sobre métodos para descrever a diferença entre duas distribuições de texto *em linguagem natural* podemos comparar as saídas do modelo de 20b com o modelo de 120b, ou LLAMA, ou GPT-5...
TRABALHO FUTURO – extração direta estamos a trabalhar na extração direta de dados de treino a partir de modelos usando RL e outros métodos. iremos apresentar o nosso primeiro trabalho sobre isso no COLM e esperamos mais desenvolvimentos nesta área e talvez consigamos extrair dados diretamente do modelo de 120b.. um dia 😎
147,74K