一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

这是本周的仪式研究摘要，一份涵盖LLM世界和加密货币与人工智能交集的最新动态的通讯。每周有数百篇论文发表，跟上最新动态几乎是不可能的。我们会为您阅读，以便您无需亲自去看。

多模块 GRPO：为语言模型程序组合策略梯度和提示优化本文探讨了后训练是否可以应用于提示优化框架。

这是GRPO在复杂LLM管道中的首次实现。方法MM-GRPO在平均上比普通的CoT提高了7%的性能。虽然它并不总是超过提示优化，但它始终是一个有效的补充。

学习推理以确保事实准确性本文开发了一种奖励函数，用于训练长链思维（CoT）以确保事实准确性。他们的设计通过同时重视精确性、细节和质量来防止奖励黑客行为。

他们发现，在多个数据集上，他们的强化学习奖励函数在所有指标上都优于基础模型（Llama-3.1-8B-Instruct）。现有的推理大型语言模型（QwQ，R1）与其基础模型（Qwen 2.5 32B，DS v3）相比，事实性下降。

Cooper：在大型语言模型中共同优化强化学习的策略和奖励模型在本文中，他们提出了一种RL方法Cooper，同时训练策略模型和奖励模型。

他们发布了一个奖励建模数据集，该数据集使用结合基于规则和LLM作为评判者验证的策略进行标记。他们发现，在强化学习过程中动态调整奖励模型可以有效缓解奖励黑客行为。

R-Zero：从零数据自我进化的推理LLM 在本文中，他们提出了R-Zero，用于训练能够从零外部数据自我进化的推理LLM。相同的模型初始化为两个角色（挑战者/解决者），在强化学习中共同进化。

挑战者因生成对解决者当前能力而言困难的任务而获得奖励，而解决者则因解决这些挑战者提出的日益困难的任务而获得奖励。R-Zero是一个与模型无关的框架，他们在Qwen3-4b模型上显示出收益。

他们还推出了CompassVerifier，一个强大的验证模型系列。使用来自原始基准、公式增强数据和幻觉数据的数据进行训练。他们的模型表现优于其他模型，如Qwen2.5和3系列，并且作为奖励模型也很有帮助。

关注我们 @ritualdigest，获取更多关于加密货币与人工智能研究的内容，关注 @ritualnet 了解 Ritual 正在构建的内容。

4.19K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可