これらの推論の痕跡は私を夜も眠らせませんでした 左: IMO ゴールドを獲得した新しい OpenAI モデル 右側: ランダムな数学問題に関する DeepSeek R1 昨年以来、学界は推論に関する1,000以上の論文を作成しました(おそらくそれ以上)。 私たちは事実上皆、推論について考えています しかし、私たちのすべてのシステムは、右側の DeepSeek のように見える「思考の痕跡」を生成します。 それらは信じられないほど、不快なほど冗長で、過失に近い速度でトークンを燃やしています。 推論の多くは不必要であり、一部は完全に間違っています しかし、左派の推論、この新しいものは、まったく別のものです。 明らかにステップ関数の変更。 まったく異なる方法になる可能性があります それは「実際の」推論に非常に近いものです。トークンが無駄になりません。 どちらかといえば、非常に簡潔です。人間の解決策はこれよりも冗長だと思います 明らかに、まったく異なることが起こっています。おそらくOpenAIはまったく新しいRLVRトレーニングプロセスを開発したのでしょう。 専門家からの特別なデータ収集があるかもしれません。 おそらく彼らは、実際に何らかの形でモデルに利益をもたらす方法で考えすぎたことに対して、モデルにペナルティを課し始めたのかもしれません 本当に魅力的なもの... 一般的に、これは私をR1スタイルの推論に弱気にさせます
@marlboro_andresはい、いくつかあります。
Alexander Wei
Alexander Wei2025年7月19日
4/N 第二に、IMOの提出物は検証が困難で、複数ページにわたる証明です。ここでの進歩には、明確で検証可能な報酬というRLパラダイムを超えることが求められています。そうすることで、人間の数学者レベルで複雑で水密な議論を作成できるモデルが得られました。
152.26K