OpenAI の新しい gpt-oss モデルのトレーニング データに興味がありますか?私もそうでした。 そこで、gpt-oss-20bから10Mの例を生成し、いくつかの分析を実行したところ、結果は...かなり奇妙です 深く掘り下げ🧵る時が来ました
これは、組み込み世代の地図です このモデルは数学とコードが大好きです。私は何もせずに促しますが、それでもいつも理由があります。数学とコードについてのみ語り、ほとんどが英語で語られています 数学 – 確率、ML、偏微分方程式、トポロジー、差分 コード – エージェント ソフトウェア、競争力のあるプログラミング、データ サイエンス
最初に気付くのは、実質的にどの世代も自然なウェブテキストに似ていないということです。 しかし、驚くべきことに、それらはどれも通常のチャットボットのやり取りのようには見えません これは、特定の推論ベンチマークのタスクを考えて解決するように、RLを介して明確にトレーニングされています。何。
そして、それは本当に拷問されたモデルです。ここで、モデルはドミノに関するプログラミングの問題を幻覚で見て、その解決を試み、その過程で30,000以上のトークンを消費します まったくプロンプトなしで、モデルはこのドミノ問題を生成し、5,000回以上にわたって解こうとしました
gpt-ossがどのプログラミング言語を知っているかを理解するために、出力に対して分類子を実行しました 彼らはあなたが聞いたことのあるほとんどすべてのことを訓練しているようです。特にPerlが多い (ところで、私の分析から、JavaとKotlinははるかに高いはずです。分類子が間違っている可能性があります)
地図からは見えないのは、チェーンの多くが英語で始まりますが、ゆっくりとニューラ語に降りていくということです 推論の連鎖は、アラビア語、ロシア語、タイ語、韓国語、中国語、ウクライナ語の間で楽しく交互に行われます。その後、通常は英語に戻ります(ただし、常にではありません)
OCRの推測: 例としては、OCRV ROOT などのアーティファクトがあり、トレーニング データが 行間を読む: OpenAI は本をスキャンしています (なぜか、モデルはマレーシアに何人の聴覚障害者が住んでいるかについて言及するのが大好きです)
定数コードスイッチングの説明にはどのようなものがありますか? 1. OpenAI は RL を理解しました。モデルは英語を話せなくなりました 2. OCRまたは合成トレーニングによるデータ破損の問題 3. どういうわけか、モデルにあまりにも多くのトークンを出力させ、徐々に配布から移行しました
少数のクリエイティブなアウトプットが随所に散りばめられています モデルがノルウェー語の脚本🤷 ♂️のスケッチを書き始める例を次に示します
私もこの作品から多くのことを学びました。 モデルはUnicodeを使うのが*本当に*得意です ...しかし、物理学が苦手かもしれません。「スーパーハロー機能」とは一体何なのか
データを試してみたい場合は、HuggingFaceにあります。 見つけたものを教えてください!
今後の仕事 – 重複排除 ランダムシードを変化させ、温度を使用しましたが、多くの出力は非常に冗長です 重複排除するのが賢明でしょう、ここには100k以下、ほとんどユニークな例しかないに違いありません
今後の仕事 – 違いの説明 @ZhongRuiqiは、2つのテキスト分布の違いを*自然言語で*記述する方法について、いくつかの素晴らしい研究を行っています 20b の出力を 120b モデル、LLAMA、または GPT-5 と比較できます。
FUTURE WORK – 直接抽出 RLなどの手法を用いて、モデルから学習データを直接抽出することに取り組んでいます。これに関する最初の研究をCOLMで発表する予定であり、この分野ではさらに多くのことが期待されます 120Bモデルから直接データを抽出できるかもしれません。一日 😎
147.73K