热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

jack morris
研究@cornell @meta||语言模型、信息论、人工智能科学 ||原名尤达
这些推理过程让我夜不能寐
左边:新的 OpenAI 模型获得了 IMO 金奖
右边:DeepSeek R1 在一个随机数学问题上的表现
你需要意识到,自去年以来,学术界已经产生了超过一千篇关于推理的论文(可能更多)。我们几乎都在思考推理
但我们所有的系统产生的“思维痕迹”看起来都像右边的 DeepSeek。它们极其冗长,以一种几乎疏忽的速度消耗着代币。很多推理都是不必要的,有些甚至完全错误
但左边的推理,这个新东西,完全是另一回事。显然是一个阶跃函数的变化。可能是完全不同的方法
它更接近于*实际*推理。没有代币被浪费。如果说有什么不同的话,那就是它异常简洁;我猜人类的解决方案比这更冗长
显然,有些非常不同的事情正在发生。也许 OpenAI 开发了一种全新的 RLVR 训练过程。也许他们从专家那里收集了一些特殊的数据。也许他们开始惩罚模型过度思考,以一种实际上对其有益的方式
真的很有趣……总的来说,这让我对 R1 风格的推理持悲观态度


152.05K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可