Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
curioso sobre os dados de treino dos novos modelos gpt-oss da OpenAI? Eu também estava.
Então, gerei 10M de exemplos do gpt-oss-20b, fiz algumas análises e os resultados foram... bastante bizarros.
Hora de uma análise profunda 🧵

aqui está um mapa das gerações incorporadas
o modelo adora matemática e código. eu prompto com nada e ainda assim ele sempre raciocina. ele apenas fala sobre matemática e código, e principalmente em inglês
matemática – probabilidade, ML, PDEs, topologia, difeq
código – software agente, programação competitiva, ciência de dados


a primeira coisa a notar é que praticamente nenhuma das gerações se assemelha a texto da web natural. mas, surpreendentemente, nenhuma delas se parece com interações normais de chatbot também
esta coisa é claramente treinada via RL para pensar e resolver tarefas para benchmarks de raciocínio específicos. nada mais.
e realmente é um modelo torturado. aqui o modelo alucina um problema de programação sobre dominós e tenta resolvê-lo, gastando mais de 30.000 tokens no processo
completamente sem ser solicitado, o modelo gerou e tentou resolver este problema dos dominós mais de 5.000 vezes separadas.

executei um classificador sobre as saídas para ter uma noção de quais linguagens de programação o gpt-oss conhece
eles parecem ter treinado em quase tudo o que você já ouviu falar. especialmente muito Perl
(aliás, pela minha análise, Java e Kotlin deveriam estar muito mais altos. o classificador pode ter falhado)

o que não se pode ver no mapa é que muitas das cadeias começam em inglês, mas lentamente descem para o Neuralese
a cadeia de raciocínio alterna alegremente entre árabe, russo, tailandês, coreano, chinês e ucraniano. depois geralmente voltam para o inglês (mas nem sempre)


a conjectura OCR:
alguns exemplos incluem artefatos como OCRV ROOT, que indicam que os dados de treinamento podem ter sido
lendo nas entrelinhas: a OpenAI está a digitalizar livros
(por alguma razão, o modelo adora mencionar quantas pessoas surdas vivem na Malásia)

quais são algumas explicações para a alternância constante de códigos?
1. A OpenAI descobriu o RL. os modelos não falam mais inglês
2. problemas de corrupção de dados via OCR ou treinamento sintético
3. de alguma forma, forcei o modelo a gerar muitos tokens e eles gradualmente saem da distribuição
há um pequeno número de saídas criativas intercaladas ao longo
aqui está um exemplo onde o modelo começa a escrever um esboço para um roteiro norueguês 🤷♂️

também aprendi muito com este.
o modelo é *realmente* bom em usar unicode
...mas pode ser mau em física. o que é, afinal, uma 'função superhalo'?

se quiser experimentar os dados, aqui está, está no huggingface:
deixe-me saber o que você encontra!

TRABALHO FUTURO – desduplicação
mesmo que eu tenha variado a semente aleatória e usado temperatura, muitos dos resultados são altamente redundantes
seria prudente desduplicar, aposto que há apenas 100k ou menos exemplos principalmente únicos aqui
TRABALHO FUTURO – descrevendo diferenças
@ZhongRuiqi tem um trabalho incrível sobre métodos para descrever a diferença entre duas distribuições de texto *em linguagem natural*
podemos comparar as saídas do modelo de 20b com o modelo de 120b, ou LLAMA, ou GPT-5...
TRABALHO FUTURO – extração direta
estamos a trabalhar na extração direta de dados de treino a partir de modelos usando RL e outros métodos. iremos apresentar o nosso primeiro trabalho sobre isso no COLM e esperamos mais desenvolvimentos nesta área
e talvez consigamos extrair dados diretamente do modelo de 120b.. um dia 😎
147,74K
Top
Classificação
Favoritos