我们意外地构建了自我改进的AI系统。牛津大学的这篇论文证明了这一点。 大多数人认为模型的改进来自于更大的架构或精心设计的强化学习管道。 这项工作展示了更微妙和更令人不安的东西。 如果你部署一个模型,让用户与之互动,过滤掉失败的案例,并仅在成功的轨迹上进行微调,模型就会开始自我提升其规划能力。 没有明确的奖励,没有手工设计的课程,也没有外部规划者。 只有迭代。 作者称之为迭代部署,并在像Blocksworld、Rovers和Sokoban这样的受控规划环境中进行了测试。 设置很简单: 1. 在规划任务上部署一个LLM 2. 仅保留实际有效的计划 3. 在这些有效轨迹上微调下一个版本 重复 经过仅仅五代,所有领域的规划性能翻倍。在某些情况下,性能提高了4到5倍。更有趣的是,后来的世代发现的计划比基础模型长得多,显示出真正的超出分布的泛化,而不仅仅是格式化技巧或提示合规。 这里是关键的见解。 论文证明这个过程在数学上等同于具有二元奖励信号的强化学习。 但奖励函数从未被写下来。 ...