今週の Ritual Research Digest は、LLM の世界の最新情報と Crypto x AI の交差点をカバーするニュースレターです。 毎週何百もの論文が発行されているため、最新の情報を入手することは不可能です。私たちはあなたがその必要を省くように読書を行います。
低確率トークンは検証可能な報酬で強化学習の探索を持続 この論文では、推論モデルのボトルネックは、確率の低い探索トークン(推論スパークと呼ばれています)の排除に起因している可能性があることを発見しました。
彼らは、正則化によって貴重な低確率トークンを保存するために Lp-Reg を導入します。Lp-Reg は、最初にノイズの多い低確率トークンを破棄し、次に残りの候補に確率質量を再分配します。 Qwen3-14Bの5つの数学ベンチマークでは、2.66%改善されています。
テスト時間スケーリングにおける温度サンプリングの役割について 最近のテストタイムスケーリング(TTS)のスケーリングは1024にPass@k増加しましたが、TTSのパフォーマンスの上限に達しましたか?論文は、温度サンプリングを通じて、TTSをさらにスケーリングできることを示しています。
これらの論文は、温度がテスト時にスケーリングするための新しい次元になり得ることを示しています。Qwen3(0.6B、1.7B、4B、8B)と5つのベンチマークにわたる実験により、温度スケーリングは単一温度TTSに対して7.3ポイントを得ました。また、T スケーリングの効率的な方法も設計しています。
DiffuSpec: 投機的デコードのための拡散言語モデルのロック解除 投機的デコードのドラフターとしての拡散モデルは、ステップごとのトークン提案スループットが高く、提案品質が高いため、適しています。
ただし、拡散モデルには、因果関係の整列と抜き書きの長さに関連する問題があります。 これらの問題に対処するために、この論文では、トレーニング不要の手法であるDiffuSpecを紹介します。さまざまなタスクにわたって、最大 3× のウォールクロック スピードアップを実現し、他のトレーニング不要のベースラインよりも優れたパフォーマンスを発揮します。
読みやすさの難易度の異なる合成データを生成することで、彼らは、小規模言語モデルにおける一貫性の鍵は可読性ではないことを発見しました。 彼らの発見は、統計的単純さがSLMにおける学習可能性のより強力な予測因子であることを示唆しています。
暗号通貨 x AI 研究に関するすべての詳細については、@ritualdigest をフォローしてください。 @ritualnet Ritualが構築しているものについて詳しく知りたい。
1.46K