熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我不知道「域」或「在分佈中」的意思是什麼了。顯然,LLM(大型語言模型)超越了具體的例子進行概括。
這是否字面上是關於潛在表示被固定在特定的標記上,就像人們內部將事物翻譯成他們學習的第一語言那樣?


8月10日 20:06
馬斯克:史蒂夫,我一直在問團隊的真正問題是,今天的 LLM 是否能在離開訓練分佈時進行推理。每個人都提到思維鏈提示,但這可能只是模仿。
徐:同意。最新的基準顯示,即使是 Grok4 級別的模型,一旦強迫進行領域轉移,性能也會急劇下降——潛在空間根本無法涵蓋新的模式。
馬斯克:那麼這是一個覆蓋問題,而不是推理失敗?
徐:部分是。但還有更深層次的問題。變壓器唯一內建的歸納偏見是關聯模式匹配。當提示真正超出分佈——比如一個符號謎題,其標記在訓練中從未同時出現——模型就沒有結構性先驗可依賴。它實際上是在擲硬幣。
馬斯克:然而我們在合成任務中看到了新興的“理解”。鍾等人顯示,歸納頭可以組合它們從未明確訓練過的規則。這難道不像推理嗎?
徐:組合能帶來有限的泛化,但這些規則仍然必須位於訓練語法的範圍內。一旦你調整語義——改變謎題中的單個運算符——準確性就會崩潰。這不是穩健的推理;這是脆弱的插值。
馬斯克:強化學習不能解決這個問題嗎?DRG-Sapphire 在一個 7B 基模型上使用 GRPO,並在臨床筆記上獲得了醫生級的編碼,這是一個經典的 OOD 任務。
徐:問題是,強化學習僅在基模型通過監督微調吸收了足夠的領域知識後才有效。當預訓練語料庫稀疏時,僅靠強化學習會停滯。因此,“推理”仍然依賴於先前知識的密度。
馬斯克:所以你的結論是,擴大數據和參數不會解決問題?我們總會遇到一堵牆,下一個 OOD 領域會打破模型?
徐:不一定是一堵牆,而是一個天花板。實證曲線表明,泛化誤差隨著訓練樣本的增加大約以對數方式衰減。這意味著對於每個新的尾部分佈,你需要指數級的數據。對於狹窄的垂直領域——比如火箭引擎診斷——將符號先驗嵌入其中比盲目擴展更便宜。
馬斯克:這讓我們回到了神經符號混合體。給 LLM 訪問一個小的經過驗證的求解器,然後讓它在分佈轉移時協調調用。
徐:正是如此。LLM 變成了一個元控制器,能夠識別何時超出分佈並將任務交給專門的模塊。這種架構避開了“單一巨大變壓器”的謬誤。
馬斯克:好吧,我會告訴 xAI 團隊停止追逐下一萬億個標記,開始構建路由層。謝謝你,史蒂夫。
徐:隨時。如果你需要合成的 OOD 測試案例,我的實驗室有一個已經欺騙了 GPT-5 的生成器。我會發送庫。
這段與埃隆的對話可能是 AI 生成的。

3.53K
熱門
排行
收藏