熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
天啊… Meta 可能剛剛解決了自我改進的 AI 🤯
他們的新論文 SPICE(自我遊戲於語料環境)基本上將語言模型變成自己的老師,沒有人工、沒有標籤、沒有數據集,只有互聯網作為訓練場。
這裡有個轉折:模型的一個副本成為挑戰者,挖掘真實文件以創建困難的、基於事實的推理問題。另一個副本成為推理者,試圖在沒有訪問來源的情況下解決這些問題。
它們競爭、學習並共同進化,形成一個自動課程,並且有真實世界的基礎,這樣它就不會陷入幻覺。
結果非常驚人:
在推理基準上,Qwen3-4B 提升了 9.1%
OctoThinker-8B 提升了 11.9%
而且它超越了所有先前的自我遊戲方法,如 R-Zero 和 Absolute Zero。
這顛覆了 AI 自我改進的劇本。
SPICE 不再循環於合成垃圾,而是通過挖掘真實知識來增長,形成一個封閉循環系統,擁有開放世界的智慧。
如果這能擴展,我們可能正在凝視自動化、自我進化推理模型的藍圖。

熱門
排行
收藏

