甚至连铜牌都没有:评估大型语言模型在2025年国际数学奥林匹克上的表现 🥉 来自MathArena团队的精彩博客文章:对大型语言模型在未受污染的数学竞赛中的表现进行独立分析()。
看起来像是带有 Deep Think 的高级版 Gemini 刚刚解决了 IMO 6 个问题中的 5 个,获得了 35 个总分,正式实现了金牌级别的表现。 恭喜取得成就@lmthang❗️迫不及待地想玩这个模型
42.7K