天啊… Meta 可能剛剛解決了自我改進的 AI 🤯 他們的新論文 SPICE(自我遊戲於語料環境)基本上將語言模型變成自己的老師,沒有人工、沒有標籤、沒有數據集,只有互聯網作為訓練場。 這裡有個轉折:模型的一個副本成為挑戰者,挖掘真實文件以創建困難的、基於事實的推理問題。另一個副本成為推理者,試圖在沒有訪問來源的情況下解決這些問題。 它們競爭、學習並共同進化,形成一個自動課程,並且有真實世界的基礎,這樣它就不會陷入幻覺。 結果非常驚人: 在推理基準上,Qwen3-4B 提升了 9.1% OctoThinker-8B 提升了 11.9% 而且它超越了所有先前的自我遊戲方法,如 R-Zero 和 Absolute Zero。 這顛覆了 AI 自我改進的劇本。 SPICE 不再循環於合成垃圾,而是通過挖掘真實知識來增長,形成一個封閉循環系統,擁有開放世界的智慧。 如果這能擴展,我們可能正在凝視自動化、自我進化推理模型的藍圖。