DApp Store | Centrum Web3 pro události a hry

Populární témata

Zajímají vás trénovací data nových modelů GPT-OSS od OpenAI? Já jsem byl také. tak jsem vygeneroval 10M příkladů z gpt-oss-20b, provedl nějakou analýzu a výsledky byly... Docela bizarní Je čas na hluboký ponor 🧵

Zde je mapa vložených generací Model miluje matematiku a kód. Vyzývám s ničím a přesto to vždy zdůvodňuje. mluví se tam jen o matematice a kódu, a většinou v angličtině matematika – pravděpodobnost, ML, PDR, topologie, diffeq kód – agentní software, konkurenční programování, data science

První věc, které si všimnete, je, že prakticky žádná z generací se nepodobá přirozenému webtextu. Ale překvapivě ani žádná z nich nevypadá jako běžná interakce s chatbotem tato věc je jasně trénována pomocí RL k přemýšlení a řešení úkolů pro konkrétní benchmarky uvažování. nic jiného.

A je to skutečně zmučený model. Zde model halucinuje programovací problém o dominu a pokouší se jej vyřešit, přičemž utratí více než 30 000 tokenů Zcela bez vyzvání model vygeneroval a pokusil se vyřešit tento dominový problém více než 5 000 samostatných časů

Spustil klasifikátor nad výstupy, aby získal představu o tom, které programovací jazyky GPT-OSS zná Zdá se, že trénovali téměř na všechno, o čem jste kdy slyšeli. zejména hodně Perlu (btw, z mé analýzy by Java a Kotlin měly být mnohem vyšší. klasifikátor se mohl pokazit)

co z mapy nevidíte, je, že mnoho řetězců začíná v angličtině, ale pomalu klesá do neuralštiny řetězce uvažování se naštěstí střídají mezi arabštinou, ruštinou, thajštinou, korejštinou, čínštinou a ukrajinštinou. pak se obvykle vrátí do angličtiny (ale ne vždy)

Domněnka OCR: některé příklady zahrnují artefakty, jako je OCRV ROOT, které indikují, že trénovací data mohla být čtení mezi řádky: OpenAI skenuje knihy (z nějakého důvodu model rád zmiňuje, kolik neslyšících žije v Malajsii)

Jaká jsou vysvětlení pro konstantní přepínání kódu? 1. OpenAI přišla na RL. Modelky již nemluví anglicky 2. problémy s poškozením dat prostřednictvím OCR nebo syntetického školení 3. Nějak jsem donutil model, aby vydával příliš mnoho tokenů a ty se postupně posouvají z distribuce

V celém objektu se prolíná malý počet kreativních výstupů Zde je jeden příklad, kdy modelka začíná psát skicu pro norský scénář 🤷 ♂️

Z tohoto jsem se také hodně naučil. Model je *opravdu* dobrý v používání Unicode ... ale může být špatný ve fyzice. Co je to proboha "funkce Superhalo"

Pokud si chcete data vyzkoušet, tady je, je to na Huggingface: Dejte mi vědět, co jste našli!

BUDOUCÍ PRÁCE – deduplikace I když jsem měnil náhodný seed a použitou teplotu, spousta výstupů je vysoce nadbytečná Bylo by rozumné odstranit duplicitu, vsadím se, že je zde pouze 100 tisíc nebo méně většinou jedinečných příkladů

BUDOUCÍ PRÁCE – popis rozdílů @ZhongRuiqi má neuvěřitelnou práci na metodách pro popis rozdílu mezi dvěma distribucemi textu *v přirozeném jazyce* mohli bychom porovnávat výstupy 20b s modelem 120b, nebo LLAMA, nebo GPT-5...

BUDOUCÍ PRÁCE – přímá extrakce pracujeme na přímé extrakci trénovacích dat z modelů pomocí RL a dalších metod. v COLM představíme naši první práci na toto téma a v tomto prostoru očekáváme další Možná budeme schopni přímo extrahovat data z modelu 120B. jednoho dne 😎

147,72K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější