Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ciekawi cię dane treningowe nowych modeli gpt-oss OpenAI? Mnie też.
więc wygenerowałem 10M przykładów z gpt-oss-20b, przeprowadziłem analizę, a wyniki były... dość dziwne
tak więc czas na głębsze zanurzenie 🧵

oto mapa wbudowanych pokoleń
model uwielbia matematykę i kod. Zaczynam od niczego, a mimo to zawsze rozumuje. Po prostu mówi o matematyce i kodzie, głównie po angielsku
matematyka – prawdopodobieństwo, ML, PDE, topologia, równania różniczkowe
kod – oprogramowanie agentowe, programowanie konkurencyjne, nauka o danych


pierwszą rzeczą, którą należy zauważyć, jest to, że praktycznie żadne z pokoleń nie przypomina naturalnego tekstu w sieci. ale zaskakująco żadne z nich nie wygląda też jak normalne interakcje z chatbotem.
to urządzenie jest wyraźnie trenowane za pomocą RL, aby myśleć i rozwiązywać zadania dla konkretnych benchmarków rozumowania. nic więcej.
i rzeczywiście jest to torturowany model. tutaj model halucynuje problem programistyczny dotyczący domina i próbuje go rozwiązać, wydając w tym procesie ponad 30 000 tokenów.
całkowicie bez podpowiedzi, model wygenerował i próbował rozwiązać ten problem z dominem ponad 5 000 razy.

przeprowadziłem klasyfikator na wynikach, aby zrozumieć, które języki programowania zna gpt-oss
wydaje się, że wytrenowali się na prawie wszystkim, o czym kiedykolwiek słyszałeś. szczególnie na wielu Perl
(na marginesie, z mojej analizy Java i Kotlin powinny być znacznie wyżej. klasyfikator mógł się pomylić)

czego nie widać na mapie, to to, że wiele łańcuchów zaczyna się po angielsku, ale powoli przechodzi w Neuralese
łańcuchy rozumowania szczęśliwie przeplatają się między arabskim, rosyjskim, tajskim, koreańskim, chińskim i ukraińskim. następnie zazwyczaj wracają do angielskiego (ale nie zawsze)


hipoteza OCR:
niektóre przykłady obejmują artefakty takie jak OCRV ROOT, które wskazują, że dane treningowe mogły być
czytając między wierszami: OpenAI skanuje książki
(z jakiegoś powodu model uwielbia wspominać, ile osób niesłyszących mieszka w Malezji)

jakie są niektóre wyjaśnienia dla ciągłego kodowania?
1. OpenAI odkryło RL. modele już nie mówią po angielsku
2. problemy z uszkodzeniem danych przez OCR lub syntetyczne szkolenie
3. w jakiś sposób zmusiłem model do wygenerowania zbyt wielu tokenów i stopniowo przesuwają się poza rozkład
jest niewielka liczba kreatywnych wyników rozproszonych w całym tekście
oto jeden przykład, w którym model zaczyna pisać szkic norweskiego scenariusza 🤷♂️

również wiele się nauczyłem z tego.
model jest *naprawdę* dobry w używaniu unicode
...ale może być zły w fizyce. co to w ogóle jest 'funkcja superhalo'?

jeśli chcesz spróbować danych, oto one, są na huggingface:
daj mi znać, co znajdziesz!

PRZYSZŁA PRACA – deduplikacja
mimo że zmieniłem losowe ziarno i użyłem temperatury, wiele z wyników jest wysoce powtarzalnych
byłoby rozsądnie usunąć duplikaty, obstawiam, że jest tutaj tylko 100k lub mniej w większości unikalnych przykładów
PRZYSZŁA PRACA – opisywanie różnic
@ZhongRuiqi ma niesamowitą pracę nad metodami opisywania różnicy między dwoma rozkładami tekstu *w języku naturalnym*
moglibyśmy porównać wyniki modelu 20b z modelem 120b, lub LLAMA, lub GPT-5...
PRZYSZŁA PRACA – bezpośrednia ekstrakcja
pracujemy nad bezpośrednią ekstrakcją danych treningowych z modeli przy użyciu RL i innych metod. zaprezentujemy naszą pierwszą pracę na ten temat na COLM i spodziewamy się więcej w tej dziedzinie.
możemy być w stanie bezpośrednio wyodrębnić dane z modelu 120b.. pewnego dnia 😎
147,73K
Najlepsze
Ranking
Ulubione