熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
最近,論文《層次推理模型》引起了廣泛關注,在Twitter上收集了數萬個讚,這在研究論文中相當不尋常。
該論文聲稱在ARC-AGI-1上以一個小型模型(2700萬參數)從零開始訓練,準確率為40.3%——如果這是真的,將代表一個重大的推理突破。
我剛剛深入研究了這篇論文和代碼庫……
這是一篇好文章,詳細而易於理解。我認為所提出的想法相當有趣,架構也可能具有價值。
這個概念讓我想起了我在2016-2018年"深度學習架構研究的黃金時代"遇到的許多不同想法。這類研究已經不再流行一段時間,因此看到對替代架構的重新興趣是件好事。
然而,實驗設置似乎存在嚴重缺陷,這意味著我們目前沒有來自ARC-AGI的實證信號,無法確定該架構是否真的有幫助。
根據我對數據準備代碼的理解,ARC-AGI-1實驗正在進行以下操作:
1. 在876,404個任務上進行訓練,這些任務是960個原始任務的增強生成變體:
... 400來自ARC-AGI-1/train
... 400來自ARC-AGI-1/eval
... 160來自ConceptARC
2. 在400個任務(ARC-AGI-1/eval)上進行測試,通過將每個任務增強為約1000個變體(實際上,由於增強過程的特殊性,總共只有368,151個),為每個變體生成預測,並通過多數投票將預測減少到N=2。
簡而言之:他們在測試數據上進行訓練。
你可能會問,等等,那麼準確率為什麼是40%,而不是100%?模型是否嚴重欠擬合?
這是因為訓練數據和測試數據代表的是相同原始任務的*不同變體*。數據增強是獨立應用於訓練數據中的評估任務和測試數據中的評估任務。
因此,這個實驗大致上是在測量模型如何成功地對相同任務的程序生成變體進行泛化(即模型是否能學會逆轉一組固定的靜態網格變換)。
所以——不要太興奮。但我確實認為這類架構研究是有價值的(當伴隨著適當的實證驗證信號時),而HRM的想法非常有趣。
此外,為了澄清,我不認為作者有意誤導或隱藏實驗問題——他們可能沒有意識到他們的訓練設置實際上意味著什麼。
19.59K
熱門
排行
收藏