这是本周的仪式研究摘要,一份涵盖LLM世界和加密货币与人工智能交集的最新动态的通讯。 每周有数百篇论文发表,跟上最新动态几乎是不可能的。我们会为您阅读,以便您无需亲自去看。
多模块 GRPO:为语言模型程序组合策略梯度和提示优化 本文探讨了后训练是否可以应用于提示优化框架。
这是GRPO在复杂LLM管道中的首次实现。方法MM-GRPO在平均上比普通的CoT提高了7%的性能。虽然它并不总是超过提示优化,但它始终是一个有效的补充。
学习推理以确保事实准确性 本文开发了一种奖励函数,用于训练长链思维(CoT)以确保事实准确性。他们的设计通过同时重视精确性、细节和质量来防止奖励黑客行为。
他们发现,在多个数据集上,他们的强化学习奖励函数在所有指标上都优于基础模型(Llama-3.1-8B-Instruct)。现有的推理大型语言模型(QwQ,R1)与其基础模型(Qwen 2.5 32B,DS v3)相比,事实性下降。
Cooper:在大型语言模型中共同优化强化学习的策略和奖励模型 在本文中,他们提出了一种RL方法Cooper,同时训练策略模型和奖励模型。
他们发布了一个奖励建模数据集,该数据集使用结合基于规则和LLM作为评判者验证的策略进行标记。他们发现,在强化学习过程中动态调整奖励模型可以有效缓解奖励黑客行为。
R-Zero:从零数据自我进化的推理LLM 在本文中,他们提出了R-Zero,用于训练能够从零外部数据自我进化的推理LLM。相同的模型初始化为两个角色(挑战者/解决者),在强化学习中共同进化。
挑战者因生成对解决者当前能力而言困难的任务而获得奖励,而解决者则因解决这些挑战者提出的日益困难的任务而获得奖励。R-Zero是一个与模型无关的框架,他们在Qwen3-4b模型上显示出收益。
他们还推出了CompassVerifier,一个强大的验证模型系列。使用来自原始基准、公式增强数据和幻觉数据的数据进行训练。他们的模型表现优于其他模型,如Qwen2.5和3系列,并且作为奖励模型也很有帮助。
关注我们 @ritualdigest,获取更多关于加密货币与人工智能研究的内容,关注 @ritualnet 了解 Ritual 正在构建的内容。
4.19K