Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Är du nyfiken på träningsdata för OpenAI:s nya gpt-oss-modeller? Det var jag också.
så jag genererade 10 miljoner exempel från gpt-oss-20b, körde lite analys och resultaten var... ganska bisarrt
Dags för en djupdykning 🧵

Här är en karta över de inbäddade generationerna
Modellen älskar matematik och kod. Jag frågar med ingenting och ändå resonerar det alltid. den pratar bara om matematik och kod, och mestadels på engelska
matematik – sannolikhet, ML, PDE:er, topologi, diffeq
Kod – Agentic Software, Konkurrenskraftig programmering, Datavetenskap


Det första man bör lägga märke till är att praktiskt taget ingen av generationerna liknar naturlig webbtext. Men förvånansvärt nog ser ingen av dem heller ut som vanliga chatbot-interaktioner
den här saken är tydligt tränad via RL för att tänka och lösa uppgifter för specifika resonemangsriktmärken. inget annat.
Och det är sannerligen en torterad modell. Här hallucinerar modellen ett programmeringsproblem om dominobrickor och försöker lösa det, och spenderar över 30 000 tokens i processen
Helt spontant genererade och försökte modellen lösa detta dominoproblem över 5 000 olika gånger

körde en klassificerare över utdata för att få en känsla av vilka programmeringsspråk GPT-OSS känner till
De verkar ha tränat på nästan allt du någonsin hört talas om. speciellt en hel del Perl
(btw, från min analys Java och Kotlin borde vara mycket högre. klassificeraren kan ha gått fel)

vad du inte kan se på kartan är att många av kedjorna börjar på engelska men går långsamt ner till neuralesiska
Resonemangskedjorna växlar gärna mellan arabiska, ryska, thailändska, koreanska, kinesiska och ukrainska. sedan brukar de ta sig tillbaka till engelska (men inte alltid)


OCR-förmodan:
Några exempel är artefakter som OCRV ROOT, som anger att träningsdata kan ha varit
läsa mellan raderna: OpenAI skannar böcker
(av någon anledning älskar modellen att nämna hur många döva som bor i Malaysia)

Vad finns det för förklaringar till konstant kodväxling?
1. OpenAI har listat ut RL. Modellerna talar inte längre engelska
2. Problem med datakorruption via OCR eller syntetisk träning
3. På något sätt tvingade jag modellen att mata ut för många tokens och de skiftar gradvis ut ur distributionen
Det finns ett litet antal kreativa resultat insprängda i hela
Här är ett exempel där modellen börjar skriva en skiss till ett norskt manus 🤷 ♂️

Jag lärde mig också mycket av den här.
Modellen är *riktigt* bra på att använda Unicode
... men kan vara dålig på fysik. vad i hela världen är en "superhalo-funktion"

Om du vill prova datan, varsågod, det finns på Huggingface:
Låt mig veta vad du hittar!

FRAMTIDA ARBETE – deduplicering
Även om jag varierade det slumpmässiga fröet och den använda temperaturen, är många av utgångarna mycket redundanta
Det skulle vara klokt att duplicera, jag slår vad om att det bara finns 100k eller färre mestadels unika exempel här
FRAMTIDA ARBETE – att beskriva skillnader
@ZhongRuiqi har ett otroligt arbete med metoder för att beskriva skillnaden mellan två textdistributioner *på naturligt språk*
vi kan jämföra utdata från 20b med 120b-modellen, eller LLAMA, eller GPT-5...
FRAMTIDA ARBETE – direkt extraktion
Vi arbetar med att direkt extrahera träningsdata från modeller med hjälp av RL och andra metoder. Vi kommer att presentera vårt första arbete om detta i COLM, och förväntar oss mer inom detta område
Vi kanske kan extrahera data direkt från 120B-modellen. en dag 😎
147,74K
Topp
Rankning
Favoriter