热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这些推理过程让我夜不能寐
左边:新的 OpenAI 模型获得了 IMO 金奖
右边:DeepSeek R1 在一个随机数学问题上的表现
你需要意识到,自去年以来,学术界已经产生了超过一千篇关于推理的论文(可能更多)。我们几乎都在思考推理
但我们所有的系统产生的“思维痕迹”看起来都像右边的 DeepSeek。它们极其冗长,以一种几乎疏忽的速度消耗着代币。很多推理都是不必要的,有些甚至完全错误
但左边的推理,这个新东西,完全是另一回事。显然是一个阶跃函数的变化。可能是完全不同的方法
它更接近于*实际*推理。没有代币被浪费。如果说有什么不同的话,那就是它异常简洁;我猜人类的解决方案比这更冗长
显然,有些非常不同的事情正在发生。也许 OpenAI 开发了一种全新的 RLVR 训练过程。也许他们从专家那里收集了一些特殊的数据。也许他们开始惩罚模型过度思考,以一种实际上对其有益的方式
真的很有趣……总的来说,这让我对 R1 风格的推理持悲观态度


@marlboro_andres 是的,有几个:

2025年7月19日
4/N 第二,IMO 提交的证明难以验证,且通常是多页的。要在这里取得进展,需要超越 RL 范式的明确、可验证的奖励。通过这样做,我们获得了一个能够在与人类数学家相当的水平上构建复杂、严密论证的模型。




152.05K
热门
排行
收藏