一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

這些推理痕跡讓我夜不能寐左邊：新的 OpenAI 模型獲得了 IMO 金獎右邊：DeepSeek R1 在一個隨機數學問題上的表現你需要意識到，自去年以來，學術界已經產出了超過一千篇關於推理的論文（可能更多）。我們幾乎都在思考推理但我們所有的系統產生的「思考痕跡」看起來都像右邊的 DeepSeek。它們非常冗長，消耗代幣的速度幾乎到了疏忽的地步。很多推理都是不必要的，有些甚至完全錯誤但左邊的推理，這個新東西，完全是另一回事。顯然是一個階段性變化。可能是完全不同的方法它更接近於*真正*的推理。沒有代幣被浪費。如果有的話，它是異常簡潔的；我猜人類的解決方案比這更冗長顯然有些非常不同的事情正在發生。也許 OpenAI 開發了一個全新的 RLVR 訓練過程。也許有一些來自專家的特殊數據收集。也許他們開始懲罰模型過度思考，以某種方式實際上對它有益真的很有趣的東西……總的來說，這讓我對 R1 風格的推理感到悲觀

@marlboro_andres 是的，有幾個：

152.28K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可