一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

天哪……Meta 可能刚刚解决了自我改进的 AI 🤯 他们的新论文 SPICE（语料环境中的自我游戏）基本上将语言模型变成了自己的老师，没有人类，没有标签，没有数据集，只有互联网作为训练场。这里有个转折：模型的一个副本成为挑战者，挖掘真实文档以创建困难的、基于事实的推理问题。另一个副本成为推理者，试图在没有访问源的情况下解决这些问题。它们相互竞争、学习并共同进化，形成一个自动化的课程，具有现实世界的基础，因此它永远不会陷入幻觉。结果令人震惊：在推理基准上，Qwen3-4B 提高了 9.1% OctoThinker-8B 提高了 11.9% 并且它击败了所有之前的自我游戏方法，如 R-Zero 和 Absolute Zero。这颠覆了 AI 自我改进的剧本。 SPICE 通过挖掘真实知识而不是循环合成垃圾来成长——一个封闭循环系统，具有开放世界的智能。如果这能扩展，我们可能正在盯着自主、自我进化推理模型的蓝图。