分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

これらの推論の痕跡は私を夜も眠らせませんでした左: IMO ゴールドを獲得した新しい OpenAI モデル右側: ランダムな数学問題に関する DeepSeek R1 昨年以来、学界は推論に関する1,000以上の論文を作成しました(おそらくそれ以上)。私たちは事実上皆、推論について考えていますしかし、私たちのすべてのシステムは、右側の DeepSeek のように見える「思考の痕跡」を生成します。それらは信じられないほど、不快なほど冗長で、過失に近い速度でトークンを燃やしています。推論の多くは不必要であり、一部は完全に間違っていますしかし、左派の推論、この新しいものは、まったく別のものです。明らかにステップ関数の変更。まったく異なる方法になる可能性がありますそれは「実際の」推論に非常に近いものです。トークンが無駄になりません。どちらかといえば、非常に簡潔です。人間の解決策はこれよりも冗長だと思います明らかに、まったく異なることが起こっています。おそらくOpenAIはまったく新しいRLVRトレーニングプロセスを開発したのでしょう。専門家からの特別なデータ収集があるかもしれません。おそらく彼らは、実際に何らかの形でモデルに利益をもたらす方法で考えすぎたことに対して、モデルにペナルティを課し始めたのかもしれません本当に魅力的なもの... 一般的に、これは私をR1スタイルの推論に弱気にさせます

@marlboro_andresはい、いくつかあります。

152.26K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable