一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

DeepSeek 剛剛實現了每個推理模型一直假裝擁有的那種升級。 DeepSeek Math V2 不再只是輸出一長串思考過程並希望它有意義，而是對自己的邏輯進行全面的審查。它建立證明，攻擊它，檢查攻擊，檢查檢查者，修補缺陷，並不斷循環，直到無法再自我破壞。這個單一的想法徹底改變了它的性能。這種自我審查的水平產生了以下結果： • IMO 2025 的金級表現 • CMO 2024 的金級表現 • Putnam 2024 的 118/120，報告的最高分 • 在最困難的類別中，表現優於 GPT-5 Thinking 和 Gemini 2.5 Pro 秘密不在於規模。而在於模型周圍的架構： — 一個尋找邏輯漏洞的驗證器 — 一個質疑驗證器的元驗證器 — 一個避免弱推理的證明生成器 — 一個迫使系統每個部分變得更敏銳的循環這個過程像磨床一樣運行： - 產生證明 - 測試它 - 測試測試者 - 修復推理 - 重複他們針對數學推理中的真正問題：模型可能因錯誤的原因而得到正確的答案。因此 DeepSeek 訓練了一個評分推理而非結果的驗證器。...