ciekawi cię dane treningowe nowych modeli gpt-oss OpenAI? Mnie też. więc wygenerowałem 10M przykładów z gpt-oss-20b, przeprowadziłem analizę, a wyniki były... dość dziwne tak więc czas na głębsze zanurzenie 🧵
oto mapa wbudowanych pokoleń model uwielbia matematykę i kod. Zaczynam od niczego, a mimo to zawsze rozumuje. Po prostu mówi o matematyce i kodzie, głównie po angielsku matematyka – prawdopodobieństwo, ML, PDE, topologia, równania różniczkowe kod – oprogramowanie agentowe, programowanie konkurencyjne, nauka o danych
pierwszą rzeczą, którą należy zauważyć, jest to, że praktycznie żadne z pokoleń nie przypomina naturalnego tekstu w sieci. ale zaskakująco żadne z nich nie wygląda też jak normalne interakcje z chatbotem. to urządzenie jest wyraźnie trenowane za pomocą RL, aby myśleć i rozwiązywać zadania dla konkretnych benchmarków rozumowania. nic więcej.
i rzeczywiście jest to torturowany model. tutaj model halucynuje problem programistyczny dotyczący domina i próbuje go rozwiązać, wydając w tym procesie ponad 30 000 tokenów. całkowicie bez podpowiedzi, model wygenerował i próbował rozwiązać ten problem z dominem ponad 5 000 razy.
przeprowadziłem klasyfikator na wynikach, aby zrozumieć, które języki programowania zna gpt-oss wydaje się, że wytrenowali się na prawie wszystkim, o czym kiedykolwiek słyszałeś. szczególnie na wielu Perl (na marginesie, z mojej analizy Java i Kotlin powinny być znacznie wyżej. klasyfikator mógł się pomylić)
czego nie widać na mapie, to to, że wiele łańcuchów zaczyna się po angielsku, ale powoli przechodzi w Neuralese łańcuchy rozumowania szczęśliwie przeplatają się między arabskim, rosyjskim, tajskim, koreańskim, chińskim i ukraińskim. następnie zazwyczaj wracają do angielskiego (ale nie zawsze)
hipoteza OCR: niektóre przykłady obejmują artefakty takie jak OCRV ROOT, które wskazują, że dane treningowe mogły być czytając między wierszami: OpenAI skanuje książki (z jakiegoś powodu model uwielbia wspominać, ile osób niesłyszących mieszka w Malezji)
jakie są niektóre wyjaśnienia dla ciągłego kodowania? 1. OpenAI odkryło RL. modele już nie mówią po angielsku 2. problemy z uszkodzeniem danych przez OCR lub syntetyczne szkolenie 3. w jakiś sposób zmusiłem model do wygenerowania zbyt wielu tokenów i stopniowo przesuwają się poza rozkład
jest niewielka liczba kreatywnych wyników rozproszonych w całym tekście oto jeden przykład, w którym model zaczyna pisać szkic norweskiego scenariusza 🤷‍♂️
również wiele się nauczyłem z tego. model jest *naprawdę* dobry w używaniu unicode ...ale może być zły w fizyce. co to w ogóle jest 'funkcja superhalo'?
jeśli chcesz spróbować danych, oto one, są na huggingface: daj mi znać, co znajdziesz!
PRZYSZŁA PRACA – deduplikacja mimo że zmieniłem losowe ziarno i użyłem temperatury, wiele z wyników jest wysoce powtarzalnych byłoby rozsądnie usunąć duplikaty, obstawiam, że jest tutaj tylko 100k lub mniej w większości unikalnych przykładów
PRZYSZŁA PRACA – opisywanie różnic @ZhongRuiqi ma niesamowitą pracę nad metodami opisywania różnicy między dwoma rozkładami tekstu *w języku naturalnym* moglibyśmy porównać wyniki modelu 20b z modelem 120b, lub LLAMA, lub GPT-5...
PRZYSZŁA PRACA – bezpośrednia ekstrakcja pracujemy nad bezpośrednią ekstrakcją danych treningowych z modeli przy użyciu RL i innych metod. zaprezentujemy naszą pierwszą pracę na ten temat na COLM i spodziewamy się więcej w tej dziedzinie. możemy być w stanie bezpośrednio wyodrębnić dane z modelu 120b.. pewnego dnia 😎
147,73K