トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
中間ステップで値関数を提供できれば、セルフプレイがLLMで機能する理由を直感的に簡単に理解できます(ただし、2人用のゼロサムゲームほど明確に保証されていません)。
チェス/ゴー/ポーカーでは、次の動きごとに報酬が伴いますが、ノームが指摘するように、自然言語は厄介です。トークンのような中間ステップで値関数を定義することは困難です。その結果、通常の強化学習 (RLVR など) では、LLM は最後に報酬を受け取ります。彼らは、難しい問題に対してもっと「蛇行」することを学ぶことになります。ある意味、ブルートフォースにより多くのトークンを与え、正しいアプローチとして正しい答えにたどり着くようにします。
しかし、@DeepCogitoでは、思考プロセス自体にシグナルを提供します。概念的には、これは、より良い検索軌道に報酬を事後に割り当てることであると想像できます。これにより、モデルは推論しながら「検索方法」についてより強い直感を発達させることができます。
実際には、モデルは推論モードでのより難しい問題に対して推論チェーンが大幅に短くなります。やや意外なことに、思考しないモードでも最終的には良くなります。それについて考える 1 つの方法は、モデルが検索方法をよりよく知っているため、非思考モードで最も可能性の高い軌道をより適切に「選択」するということです。
トップ
ランキング
お気に入り

