DeepSeek 刚刚完成了每个推理模型一直假装拥有的那种升级。 DeepSeek Math V2 不再只是输出一长串思路并希望它有意义,而是对其自身逻辑进行了全面的审查。它构建一个证明,攻击它,检查攻击,检查检查者,修补缺陷,并循环直到它无法再自我破坏。 这个单一的想法彻底改变了它的表现。 以下是这种自我审查水平所产生的结果: • IMO 2025 的金级表现 • CMO 2024 的金级表现 • Putnam 2024 的 118/120,报告的最高分 • 在最难的类别中,优于 GPT-5 Thinking 和 Gemini 2.5 Pro 秘密不在于规模。 而在于模型周围的架构: — 一个寻找逻辑漏洞的验证器 — 一个质疑验证器的元验证器 — 一个避免弱推理的证明生成器 — 一个迫使系统每个部分变得更敏锐的循环 这个过程像磨床一样运行: - 生成一个证明 - 测试它 - 测试测试者 - 修复推理 - 重复 他们针对数学推理中的真正问题:一个模型可以因为错误的原因而得到正确的答案。因此,DeepSeek 训练了一个评分推理而非结果的验证器。...