Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Curioso sobre os dados de treinamento dos novos modelos gpt-oss da OpenAI? Eu também estava.
então eu gerei 10 milhões de exemplos de gpt-oss-20b, executei algumas análises e os resultados foram ... muito bizarro
Hora de um mergulho 🧵 profundo

Aqui está um mapa das gerações incorporadas
O modelo adora matemática e código. Eu peço sem nada e, no entanto, sempre raciocina. ele apenas fala sobre matemática e código, e principalmente em inglês
matemática – probabilidade, ML, EDPs, topologia, diffeq
Código – Software Agêntico, Programação Competitiva, Ciência de Dados


A primeira coisa a notar é que praticamente nenhuma das gerações se assemelha ao texto natural da web. Mas, surpreendentemente, nenhum deles se parece com interações normais de chatbot
essa coisa é claramente treinada via RL para pensar e resolver tarefas para benchmarks de raciocínio específicos. nada mais.
e é realmente um modelo torturado. Aqui, o modelo alucina um problema de programação sobre dominó e tenta resolvê-lo, gastando mais de 30.000 tokens no processo
Completamente espontâneo, o modelo gerou e tentou resolver esse problema de dominó mais de 5.000 vezes separadas

executou um classificador sobre as saídas para ter uma noção de quais linguagens de programação o GPT-OSS conhece
eles parecem ter treinado em quase tudo que você já ouviu falar. especialmente muito Perl
(aliás, pela minha análise, Java e Kotlin devem ser muito mais altos. o classificador pode ter dado errado)

o que você não pode ver no mapa é que muitas das cadeias começam em inglês, mas lentamente descem para o neuralês
as cadeias de raciocínio alternam alegremente entre árabe, russo, tailandês, coreano, chinês e ucraniano. então geralmente voltam para o inglês (mas nem sempre)


a conjectura do OCR:
alguns exemplos incluem artefatos como OCRV ROOT, que indicam que os dados de treinamento podem ter sido
lendo nas entrelinhas: OpenAI está digitalizando livros
(por algum motivo, a modelo adora mencionar quantas pessoas surdas vivem na Malásia)

Quais são algumas explicações para a troca constante de código?
1. A OpenAI descobriu o RL. As modelos não falam mais inglês
2. Problemas de corrupção de dados via OCR ou treinamento sintético
3. De alguma forma, forcei o modelo a produzir muitos tokens e eles gradualmente saem da distribuição
Há um pequeno número de saídas criativas intercaladas ao longo
Aqui está um exemplo em que o modelo começa a escrever um esboço para um roteiro 🤷 ♂️ norueguês

Eu também aprendi muito com este.
O modelo é *realmente* bom em usar Unicode
... mas pode ser ruim em física. O que no mundo é uma 'função superhalo'

Se você quiser experimentar os dados, aqui está, está no HuggingFace:
Deixe-me saber o que você encontrou!

TRABALHO FUTURO – desduplicação
Embora eu tenha variado a semente aleatória e usado a temperatura, muitas das saídas são altamente redundantes
Seria prudente desduplicar, aposto que existem apenas 100 mil ou menos exemplos únicos aqui
TRABALHO FUTURO – descrevendo diferenças
@ZhongRuiqi tem um trabalho incrível sobre métodos para descrever a diferença entre duas distribuições de texto * em linguagem natural *
poderíamos comparar as saídas de 20b com o modelo 120b, ou LLAMA, ou GPT-5 ...
TRABALHO FUTURO – extração direta
estamos trabalhando na extração direta de dados de treinamento de modelos usando RL e outros métodos. apresentaremos nosso primeiro trabalho sobre isso no COLM e esperamos mais neste espaço
Podemos extrair dados diretamente do modelo 120b. um dia 😎
147,74K
Melhores
Classificação
Favoritos