热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 刚刚完成了每个推理模型一直假装拥有的那种升级。
DeepSeek Math V2 不再只是输出一长串思路并希望它有意义,而是对其自身逻辑进行了全面的审查。它构建一个证明,攻击它,检查攻击,检查检查者,修补缺陷,并循环直到它无法再自我破坏。
这个单一的想法彻底改变了它的表现。
以下是这种自我审查水平所产生的结果:
• IMO 2025 的金级表现
• CMO 2024 的金级表现
• Putnam 2024 的 118/120,报告的最高分
• 在最难的类别中,优于 GPT-5 Thinking 和 Gemini 2.5 Pro
秘密不在于规模。
而在于模型周围的架构:
— 一个寻找逻辑漏洞的验证器
— 一个质疑验证器的元验证器
— 一个避免弱推理的证明生成器
— 一个迫使系统每个部分变得更敏锐的循环
这个过程像磨床一样运行:
- 生成一个证明
- 测试它
- 测试测试者
- 修复推理
- 重复
他们针对数学推理中的真正问题:一个模型可以因为错误的原因而得到正确的答案。因此,DeepSeek 训练了一个评分推理而非结果的验证器。...

热门
排行
收藏

