热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
天哪……Meta 可能刚刚解决了自我改进的 AI 🤯
他们的新论文 SPICE(语料环境中的自我游戏)基本上将语言模型变成了自己的老师,没有人类,没有标签,没有数据集,只有互联网作为训练场。
这里有个转折:模型的一个副本成为挑战者,挖掘真实文档以创建困难的、基于事实的推理问题。另一个副本成为推理者,试图在没有访问源的情况下解决这些问题。
它们相互竞争、学习并共同进化,形成一个自动化的课程,具有现实世界的基础,因此它永远不会陷入幻觉。
结果令人震惊:
在推理基准上,Qwen3-4B 提高了 9.1%
OctoThinker-8B 提高了 11.9%
并且它击败了所有之前的自我游戏方法,如 R-Zero 和 Absolute Zero。
这颠覆了 AI 自我改进的剧本。
SPICE 通过挖掘真实知识而不是循环合成垃圾来成长——一个封闭循环系统,具有开放世界的智能。
如果这能扩展,我们可能正在盯着自主、自我进化推理模型的蓝图。

热门
排行
收藏

