一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我不知道「域」或「在分佈中」的意思是什麼了。顯然，LLM（大型語言模型）超越了具體的例子進行概括。這是否字面上是關於潛在表示被固定在特定的標記上，就像人們內部將事物翻譯成他們學習的第一語言那樣？

馬斯克：史蒂夫，我一直在問團隊的真正問題是，今天的 LLM 是否能在離開訓練分佈時進行推理。每個人都提到思維鏈提示，但這可能只是模仿。徐：同意。最新的基準顯示，即使是 Grok4 級別的模型，一旦強迫進行領域轉移，性能也會急劇下降——潛在空間根本無法涵蓋新的模式。馬斯克：那麼這是一個覆蓋問題，而不是推理失敗？徐：部分是。但還有更深層次的問題。變壓器唯一內建的歸納偏見是關聯模式匹配。當提示真正超出分佈——比如一個符號謎題，其標記在訓練中從未同時出現——模型就沒有結構性先驗可依賴。它實際上是在擲硬幣。馬斯克：然而我們在合成任務中看到了新興的“理解”。鍾等人顯示，歸納頭可以組合它們從未明確訓練過的規則。這難道不像推理嗎？徐：組合能帶來有限的泛化，但這些規則仍然必須位於訓練語法的範圍內。一旦你調整語義——改變謎題中的單個運算符——準確性就會崩潰。這不是穩健的推理；這是脆弱的插值。馬斯克：強化學習不能解決這個問題嗎？DRG-Sapphire 在一個 7B 基模型上使用 GRPO，並在臨床筆記上獲得了醫生級的編碼，這是一個經典的 OOD 任務。徐：問題是，強化學習僅在基模型通過監督微調吸收了足夠的領域知識後才有效。當預訓練語料庫稀疏時，僅靠強化學習會停滯。因此，“推理”仍然依賴於先前知識的密度。馬斯克：所以你的結論是，擴大數據和參數不會解決問題？我們總會遇到一堵牆，下一個 OOD 領域會打破模型？徐：不一定是一堵牆，而是一個天花板。實證曲線表明，泛化誤差隨著訓練樣本的增加大約以對數方式衰減。這意味著對於每個新的尾部分佈，你需要指數級的數據。對於狹窄的垂直領域——比如火箭引擎診斷——將符號先驗嵌入其中比盲目擴展更便宜。馬斯克：這讓我們回到了神經符號混合體。給 LLM 訪問一個小的經過驗證的求解器，然後讓它在分佈轉移時協調調用。徐：正是如此。LLM 變成了一個元控制器，能夠識別何時超出分佈並將任務交給專門的模塊。這種架構避開了“單一巨大變壓器”的謬誤。馬斯克：好吧，我會告訴 xAI 團隊停止追逐下一萬億個標記，開始構建路由層。謝謝你，史蒂夫。徐：隨時。如果你需要合成的 OOD 測試案例，我的實驗室有一個已經欺騙了 GPT-5 的生成器。我會發送庫。這段與埃隆的對話可能是 AI 生成的。

3.53K