DeepSeek 剛剛實現了每個推理模型一直假裝擁有的那種升級。 DeepSeek Math V2 不再只是輸出一長串思考過程並希望它有意義,而是對自己的邏輯進行全面的審查。它建立證明,攻擊它,檢查攻擊,檢查檢查者,修補缺陷,並不斷循環,直到無法再自我破壞。 這個單一的想法徹底改變了它的性能。 這種自我審查的水平產生了以下結果: • IMO 2025 的金級表現 • CMO 2024 的金級表現 • Putnam 2024 的 118/120,報告的最高分 • 在最困難的類別中,表現優於 GPT-5 Thinking 和 Gemini 2.5 Pro 秘密不在於規模。 而在於模型周圍的架構: — 一個尋找邏輯漏洞的驗證器 — 一個質疑驗證器的元驗證器 — 一個避免弱推理的證明生成器 — 一個迫使系統每個部分變得更敏銳的循環 這個過程像磨床一樣運行: - 產生證明 - 測試它 - 測試測試者 - 修復推理 - 重複 他們針對數學推理中的真正問題:模型可能因錯誤的原因而得到正確的答案。因此 DeepSeek 訓練了一個評分推理而非結果的驗證器。...