这些推理过程让我夜不能寐 左边:新的 OpenAI 模型获得了 IMO 金奖 右边:DeepSeek R1 在一个随机数学问题上的表现 你需要意识到,自去年以来,学术界已经产生了超过一千篇关于推理的论文(可能更多)。我们几乎都在思考推理 但我们所有的系统产生的“思维痕迹”看起来都像右边的 DeepSeek。它们极其冗长,以一种几乎疏忽的速度消耗着代币。很多推理都是不必要的,有些甚至完全错误 但左边的推理,这个新东西,完全是另一回事。显然是一个阶跃函数的变化。可能是完全不同的方法 它更接近于*实际*推理。没有代币被浪费。如果说有什么不同的话,那就是它异常简洁;我猜人类的解决方案比这更冗长 显然,有些非常不同的事情正在发生。也许 OpenAI 开发了一种全新的 RLVR 训练过程。也许他们从专家那里收集了一些特殊的数据。也许他们开始惩罚模型过度思考,以一种实际上对其有益的方式 真的很有趣……总的来说,这让我对 R1 风格的推理持悲观态度
@marlboro_andres 是的,有几个:
Alexander Wei
Alexander Wei2025年7月19日
4/N 第二,IMO 提交的证明难以验证,且通常是多页的。要在这里取得进展,需要超越 RL 范式的明确、可验证的奖励。通过这样做,我们获得了一个能够在与人类数学家相当的水平上构建复杂、严密论证的模型。
152.05K