Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zajímají vás trénovací data nových modelů GPT-OSS od OpenAI? Já jsem byl také.
tak jsem vygeneroval 10M příkladů z gpt-oss-20b, provedl nějakou analýzu a výsledky byly... Docela bizarní
Je čas na hluboký ponor 🧵

Zde je mapa vložených generací
Model miluje matematiku a kód. Vyzývám s ničím a přesto to vždy zdůvodňuje. mluví se tam jen o matematice a kódu, a většinou v angličtině
matematika – pravděpodobnost, ML, PDR, topologie, diffeq
kód – agentní software, konkurenční programování, data science


První věc, které si všimnete, je, že prakticky žádná z generací se nepodobá přirozenému webtextu. Ale překvapivě ani žádná z nich nevypadá jako běžná interakce s chatbotem
tato věc je jasně trénována pomocí RL k přemýšlení a řešení úkolů pro konkrétní benchmarky uvažování. nic jiného.
A je to skutečně zmučený model. Zde model halucinuje programovací problém o dominu a pokouší se jej vyřešit, přičemž utratí více než 30 000 tokenů
Zcela bez vyzvání model vygeneroval a pokusil se vyřešit tento dominový problém více než 5 000 samostatných časů

Spustil klasifikátor nad výstupy, aby získal představu o tom, které programovací jazyky GPT-OSS zná
Zdá se, že trénovali téměř na všechno, o čem jste kdy slyšeli. zejména hodně Perlu
(btw, z mé analýzy by Java a Kotlin měly být mnohem vyšší. klasifikátor se mohl pokazit)

co z mapy nevidíte, je, že mnoho řetězců začíná v angličtině, ale pomalu klesá do neuralštiny
řetězce uvažování se naštěstí střídají mezi arabštinou, ruštinou, thajštinou, korejštinou, čínštinou a ukrajinštinou. pak se obvykle vrátí do angličtiny (ale ne vždy)


Domněnka OCR:
některé příklady zahrnují artefakty, jako je OCRV ROOT, které indikují, že trénovací data mohla být
čtení mezi řádky: OpenAI skenuje knihy
(z nějakého důvodu model rád zmiňuje, kolik neslyšících žije v Malajsii)

Jaká jsou vysvětlení pro konstantní přepínání kódu?
1. OpenAI přišla na RL. Modelky již nemluví anglicky
2. problémy s poškozením dat prostřednictvím OCR nebo syntetického školení
3. Nějak jsem donutil model, aby vydával příliš mnoho tokenů a ty se postupně posouvají z distribuce
V celém objektu se prolíná malý počet kreativních výstupů
Zde je jeden příklad, kdy modelka začíná psát skicu pro norský scénář 🤷 ♂️

Z tohoto jsem se také hodně naučil.
Model je *opravdu* dobrý v používání Unicode
... ale může být špatný ve fyzice. Co je to proboha "funkce Superhalo"

Pokud si chcete data vyzkoušet, tady je, je to na Huggingface:
Dejte mi vědět, co jste našli!

BUDOUCÍ PRÁCE – deduplikace
I když jsem měnil náhodný seed a použitou teplotu, spousta výstupů je vysoce nadbytečná
Bylo by rozumné odstranit duplicitu, vsadím se, že je zde pouze 100 tisíc nebo méně většinou jedinečných příkladů
BUDOUCÍ PRÁCE – popis rozdílů
@ZhongRuiqi má neuvěřitelnou práci na metodách pro popis rozdílu mezi dvěma distribucemi textu *v přirozeném jazyce*
mohli bychom porovnávat výstupy 20b s modelem 120b, nebo LLAMA, nebo GPT-5...
BUDOUCÍ PRÁCE – přímá extrakce
pracujeme na přímé extrakci trénovacích dat z modelů pomocí RL a dalších metod. v COLM představíme naši první práci na toto téma a v tomto prostoru očekáváme další
Možná budeme schopni přímo extrahovat data z modelu 120B. jednoho dne 😎
147,72K
Top
Hodnocení
Oblíbené