分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

OpenAI の新しい gpt-oss モデルのトレーニングデータに興味がありますか?私もそうでした。そこで、gpt-oss-20bから10Mの例を生成し、いくつかの分析を実行したところ、結果は...かなり奇妙です深く掘り下げ🧵る時が来ました

これは、組み込み世代の地図ですこのモデルは数学とコードが大好きです。私は何もせずに促しますが、それでもいつも理由があります。数学とコードについてのみ語り、ほとんどが英語で語られています数学 – 確率、ML、偏微分方程式、トポロジー、差分コード – エージェントソフトウェア、競争力のあるプログラミング、データサイエンス

最初に気付くのは、実質的にどの世代も自然なウェブテキストに似ていないということです。しかし、驚くべきことに、それらはどれも通常のチャットボットのやり取りのようには見えませんこれは、特定の推論ベンチマークのタスクを考えて解決するように、RLを介して明確にトレーニングされています。何。

そして、それは本当に拷問されたモデルです。ここで、モデルはドミノに関するプログラミングの問題を幻覚で見て、その解決を試み、その過程で30,000以上のトークンを消費しますまったくプロンプトなしで、モデルはこのドミノ問題を生成し、5,000回以上にわたって解こうとしました

gpt-ossがどのプログラミング言語を知っているかを理解するために、出力に対して分類子を実行しました彼らはあなたが聞いたことのあるほとんどすべてのことを訓練しているようです。特にPerlが多い (ところで、私の分析から、JavaとKotlinははるかに高いはずです。分類子が間違っている可能性があります)

地図からは見えないのは、チェーンの多くが英語で始まりますが、ゆっくりとニューラ語に降りていくということです推論の連鎖は、アラビア語、ロシア語、タイ語、韓国語、中国語、ウクライナ語の間で楽しく交互に行われます。その後、通常は英語に戻ります(ただし、常にではありません)

OCRの推測: 例としては、OCRV ROOT などのアーティファクトがあり、トレーニングデータが行間を読む: OpenAI は本をスキャンしています (なぜか、モデルはマレーシアに何人の聴覚障害者が住んでいるかについて言及するのが大好きです)

定数コードスイッチングの説明にはどのようなものがありますか? 1. OpenAI は RL を理解しました。モデルは英語を話せなくなりました 2. OCRまたは合成トレーニングによるデータ破損の問題 3. どういうわけか、モデルにあまりにも多くのトークンを出力させ、徐々に配布から移行しました

少数のクリエイティブなアウトプットが随所に散りばめられていますモデルがノルウェー語の脚本🤷 ♂️のスケッチを書き始める例を次に示します

私もこの作品から多くのことを学びました。モデルはUnicodeを使うのが*本当に*得意です ...しかし、物理学が苦手かもしれません。「スーパーハロー機能」とは一体何なのか

データを試してみたい場合は、HuggingFaceにあります。見つけたものを教えてください!

今後の仕事 – 重複排除ランダムシードを変化させ、温度を使用しましたが、多くの出力は非常に冗長です重複排除するのが賢明でしょう、ここには100k以下、ほとんどユニークな例しかないに違いありません

今後の仕事 – 違いの説明 @ZhongRuiqiは、2つのテキスト分布の違いを*自然言語で*記述する方法について、いくつかの素晴らしい研究を行っています 20b の出力を 120b モデル、LLAMA、または GPT-5 と比較できます。

FUTURE WORK – 直接抽出 RLなどの手法を用いて、モデルから学習データを直接抽出することに取り組んでいます。これに関する最初の研究をCOLMで発表する予定であり、この分野ではさらに多くのことが期待されます 120Bモデルから直接データを抽出できるかもしれません。一日 😎

147.73K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable