Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Curios despre datele de antrenament ale noilor modele gpt-oss de la OpenAI? Și eu am fost.
așa că am generat 10 milioane de exemple din gpt-oss-20b, am făcut niște analize și rezultatele au fost... destul de bizar
E timpul pentru o scufundare 🧵 profundă

Iată o hartă a generațiilor încorporate
Modelul iubește matematica și codul. Solicit fără nimic și totuși întotdeauna raționează. vorbește doar despre matematică și cod, și mai ales în engleză
matematică – probabilitate, ML, PDE-uri, topologie, diffeq
cod – software agentic, programare competitivă, știința datelor


Primul lucru de observat este că practic niciuna dintre generații nu seamănă cu textul web natural. Dar, în mod surprinzător, niciuna dintre ele nu arată ca interacțiuni normale de chatbot
acest lucru este în mod clar antrenat prin RL pentru a gândi și rezolva sarcini pentru repere de raționament specifice. nimic altceva.
și este cu adevărat un model torturat. Aici modelul halucinează o problemă de programare despre domino și încearcă să o rezolve, cheltuind peste 30.000 de jetoane în acest proces
complet nesolicitat, modelul a generat și a încercat să rezolve această problemă de domino de peste 5.000 de ori separat

a rulat un clasificator peste ieșiri pentru a avea o idee despre ce limbaje de programare știe GPT-OSS
Se pare că s-au antrenat pe aproape tot ce ați auzit vreodată. mai ales o mulțime de Perl
(apropo, din analiza mea, Java și Kotlin ar trebui să fie mult mai mari. clasificatorul ar fi putut merge greșit)

ceea ce nu puteți vedea de pe hartă este că multe dintre lanțuri încep în engleză, dar coboară încet în Neuralese
lanțurile de raționament alternează fericit între arabă, rusă, thailandeză, coreeană, chineză și ucraineană. apoi, de obicei, se întorc la engleză (dar nu întotdeauna)


conjectura OCR:
unele exemple includ artefacte precum OCRV ROOT, care indică faptul că datele de antrenament ar fi putut fi
citește printre rânduri: OpenAI scanează cărți
(din anumite motive, modelului îi place să menționeze câți surzi trăiesc în Malaezia)

Care sunt câteva explicații pentru comutarea constantă?
1. OpenAI și-a dat seama de RL. Modelele nu mai vorbesc engleza
2. probleme de corupere a datelor prin OCR sau antrenament sintetic
3. Cumva am forțat modelul să scoată prea multe jetoane și acestea se mută treptat din distribuție
Există un număr mic de rezultate creative intercalate pe tot parcursul
Iată un exemplu în care modelul începe să scrie o schiță pentru un scenariu 🤷 ♂️ norvegian

De asemenea, am învățat multe din acesta.
Modelul este *foarte* bun la utilizarea Unicode
... dar ar putea fi rău la fizică. ce naiba este o "funcție superhalo"

Dacă doriți să încercați datele, iată-l, este pe Huggingface:
spuneți-mi ce găsiți!

LUCRĂRI VIITOARE – deduplicare
Chiar dacă am variat semințele aleatorii și am folosit temperatura, multe dintre rezultate sunt foarte redundante
Ar fi prudent să deduplicăm, pun pariu că există doar 100 de mii sau mai puține exemple în mare parte unice aici
LUCRĂRI VIITOARE – descrierea diferențelor
@ZhongRuiqi are o muncă incredibilă asupra metodelor de descriere a diferenței dintre două distribuții de text *în limbaj natural*
am putea compara ieșirile de 20b cu modelul 120b, sau LLAMA, sau GPT-5...
LUCRĂRI VIITOARE – extracție directă
lucrăm la extragerea directă a datelor de antrenament din modele folosind RL și alte metode. vom prezenta prima noastră lucrare pe această temă în COLM și ne așteptăm la mai multe în acest spațiu
S-ar putea să putem extrage direct date din modelul 120B. O zi 😎
147,76K
Limită superioară
Clasament
Favorite