天哪……Meta 可能刚刚解决了自我改进的 AI 🤯 他们的新论文 SPICE(语料环境中的自我游戏)基本上将语言模型变成了自己的老师,没有人类,没有标签,没有数据集,只有互联网作为训练场。 这里有个转折:模型的一个副本成为挑战者,挖掘真实文档以创建困难的、基于事实的推理问题。另一个副本成为推理者,试图在没有访问源的情况下解决这些问题。 它们相互竞争、学习并共同进化,形成一个自动化的课程,具有现实世界的基础,因此它永远不会陷入幻觉。 结果令人震惊: 在推理基准上,Qwen3-4B 提高了 9.1% OctoThinker-8B 提高了 11.9% 并且它击败了所有之前的自我游戏方法,如 R-Zero 和 Absolute Zero。 这颠覆了 AI 自我改进的剧本。 SPICE 通过挖掘真实知识而不是循环合成垃圾来成长——一个封闭循环系统,具有开放世界的智能。 如果这能扩展,我们可能正在盯着自主、自我进化推理模型的蓝图。