熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這些推理痕跡讓我夜不能寐
左邊:新的 OpenAI 模型獲得了 IMO 金獎
右邊:DeepSeek R1 在一個隨機數學問題上的表現
你需要意識到,自去年以來,學術界已經產出了超過一千篇關於推理的論文(可能更多)。我們幾乎都在思考推理
但我們所有的系統產生的「思考痕跡」看起來都像右邊的 DeepSeek。它們非常冗長,消耗代幣的速度幾乎到了疏忽的地步。很多推理都是不必要的,有些甚至完全錯誤
但左邊的推理,這個新東西,完全是另一回事。顯然是一個階段性變化。可能是完全不同的方法
它更接近於*真正*的推理。沒有代幣被浪費。如果有的話,它是異常簡潔的;我猜人類的解決方案比這更冗長
顯然有些非常不同的事情正在發生。也許 OpenAI 開發了一個全新的 RLVR 訓練過程。也許有一些來自專家的特殊數據收集。也許他們開始懲罰模型過度思考,以某種方式實際上對它有益
真的很有趣的東西……總的來說,這讓我對 R1 風格的推理感到悲觀


@marlboro_andres 是的,有幾個:

2025年7月19日
4/N 第二,IMO 提交的內容是難以驗證的多頁證明。在這方面的進展需要超越 RL 範式的明確、可驗證的獎勵。通過這樣做,我們獲得了一個能夠在與人類數學家相當的水平上構建複雜、無懈可擊的論證的模型。




152.28K
熱門
排行
收藏