Neugierig auf die Trainingsdaten von OpenAIs neuen gpt-oss-Modellen? Ich war es auch. Also habe ich 10 Millionen Beispiele aus gpt-oss-20b generiert, einige Analysen durchgeführt, und die Ergebnisse waren... ziemlich bizarr. Zeit für einen tiefen Einblick 🧵
hier ist eine Karte der eingebetteten Generationen das Modell liebt Mathematik und Programmierung. Ich gebe nichts vor und doch argumentiert es immer. Es spricht nur über Mathematik und Programmierung, und hauptsächlich auf Englisch Mathematik – Wahrscheinlichkeit, ML, PDEs, Topologie, Differentialgleichungen Programmierung – agentische Software, Wettbewerbsprogrammierung, Datenwissenschaft
Das erste, was auffällt, ist, dass praktisch keine der Generationen wie natürlicher Webtext aussieht. Aber überraschenderweise sehen sie auch nicht aus wie normale Chatbot-Interaktionen. Dieses Ding ist offensichtlich über RL trainiert, um zu denken und Aufgaben für spezifische Denkbenchmarks zu lösen. Nichts anderes.
und es ist wirklich ein gequältes Modell. Hier halluziniert das Modell ein Programmierproblem über Dominosteine und versucht, es zu lösen, wobei es über 30.000 Tokens im Prozess ausgibt. Völlig unaufgefordert hat das Modell dieses Domino-Problem über 5.000 Mal generiert und versucht zu lösen.
führte einen Klassifikator über die Ausgaben aus, um ein Gefühl dafür zu bekommen, welche Programmiersprachen gpt-oss kennt sie scheinen auf fast allem trainiert zu haben, was du jemals gehört hast. Besonders viel Perl (übrigens, aus meiner Analyse sollten Java und Kotlin viel höher eingestuft werden. Der Klassifikator könnte falsch gelegen haben)
Was man auf der Karte nicht sehen kann, ist, dass viele der Ketten auf Englisch beginnen, aber langsam in Neuralese absteigen. Die Argumentationsketten wechseln fröhlich zwischen Arabisch, Russisch, Thailändisch, Koreanisch, Chinesisch und Ukrainisch. Dann machen sie normalerweise ihren Weg zurück ins Englische (aber nicht immer).
die OCR-Vermutung: einige Beispiele umfassen Artefakte wie OCRV ROOT, die darauf hindeuten, dass die Trainingsdaten möglicherweise zwischen den Zeilen lesen: OpenAI scannt Bücher (aus irgendeinem Grund erwähnt das Modell gerne, wie viele gehörlose Menschen in Malaysia leben)
Was sind einige Erklärungen für ständiges Codeswitching? 1. OpenAI hat RL herausgefunden. Die Modelle sprechen nicht mehr Englisch. 2. Datenkorruptionsprobleme durch OCR oder synthetisches Training. 3. Irgendwie habe ich das Modell gezwungen, zu viele Tokens auszugeben, und sie verschieben sich allmählich aus der Verteilung.
Es gibt eine kleine Anzahl kreativer Ausgaben, die verstreut sind. Hier ist ein Beispiel, wo das Modell beginnt, ein Drehbuch für ein norwegisches Drehbuch zu schreiben 🤷‍♂️
Ich habe auch viel von diesem gelernt. Das Modell ist *wirklich* gut darin, Unicode zu verwenden. ...aber könnte schlecht in Physik sein. Was zur Hölle ist eine 'Superhalo-Funktion'?
Wenn du die Daten ausprobieren möchtest, hier hast du sie, sie sind auf huggingface: Lass mich wissen, was du herausfindest!
ZUKÜNFTIGE ARBEIT – Duplikate entfernen Obwohl ich den Zufallswert variiert und die Temperatur verwendet habe, sind viele der Ausgaben stark redundant. Es wäre klug, Duplikate zu entfernen. Ich wette, es gibt hier nur 100.000 oder weniger größtenteils einzigartige Beispiele.
ZUKÜNFTIGE ARBEIT – Unterschiede beschreiben @ZhongRuiqi hat einige unglaubliche Arbeiten zu Methoden, um den Unterschied zwischen zwei Textverteilungen *in natürlicher Sprache* zu beschreiben. Wir könnten die Ausgaben des 20b-Modells mit dem 120b-Modell, oder LLAMA, oder GPT-5 vergleichen...
ZUKÜNFTIGE ARBEIT – direkte Extraktion Wir arbeiten daran, Trainingsdaten direkt aus Modellen mithilfe von RL und anderen Methoden zu extrahieren. Wir werden unsere erste Arbeit dazu auf der COLM präsentieren und erwarten mehr in diesem Bereich. Vielleicht können wir eines Tages Daten direkt aus dem 120b-Modell extrahieren.. 😎
147,73K