一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

DeepSeek 刚刚完成了每个推理模型一直假装拥有的那种升级。 DeepSeek Math V2 不再只是输出一长串思路并希望它有意义，而是对其自身逻辑进行了全面的审查。它构建一个证明，攻击它，检查攻击，检查检查者，修补缺陷，并循环直到它无法再自我破坏。这个单一的想法彻底改变了它的表现。以下是这种自我审查水平所产生的结果： • IMO 2025 的金级表现 • CMO 2024 的金级表现 • Putnam 2024 的 118/120，报告的最高分 • 在最难的类别中，优于 GPT-5 Thinking 和 Gemini 2.5 Pro 秘密不在于规模。而在于模型周围的架构： — 一个寻找逻辑漏洞的验证器 — 一个质疑验证器的元验证器 — 一个避免弱推理的证明生成器 — 一个迫使系统每个部分变得更敏锐的循环这个过程像磨床一样运行： - 生成一个证明 - 测试它 - 测试测试者 - 修复推理 - 重复他们针对数学推理中的真正问题：一个模型可以因为错误的原因而得到正确的答案。因此，DeepSeek 训练了一个评分推理而非结果的验证器。...