一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

天啊… Meta 可能剛剛解決了自我改進的 AI 🤯 他們的新論文 SPICE（自我遊戲於語料環境）基本上將語言模型變成自己的老師，沒有人工、沒有標籤、沒有數據集，只有互聯網作為訓練場。這裡有個轉折：模型的一個副本成為挑戰者，挖掘真實文件以創建困難的、基於事實的推理問題。另一個副本成為推理者，試圖在沒有訪問來源的情況下解決這些問題。它們競爭、學習並共同進化，形成一個自動課程，並且有真實世界的基礎，這樣它就不會陷入幻覺。結果非常驚人：在推理基準上，Qwen3-4B 提升了 9.1% OctoThinker-8B 提升了 11.9% 而且它超越了所有先前的自我遊戲方法，如 R-Zero 和 Absolute Zero。這顛覆了 AI 自我改進的劇本。 SPICE 不再循環於合成垃圾，而是通過挖掘真實知識來增長，形成一個封閉循環系統，擁有開放世界的智慧。如果這能擴展，我們可能正在凝視自動化、自我進化推理模型的藍圖。