不僅僅是銅牌:評估大型語言模型在2025年國際數學奧林匹克的表現 🥉 來自MathArena團隊的精彩部落格文章:在未受污染的數學競賽中評估大型語言模型(),提供了對大型語言模型在國際數學奧林匹克表現的獨立分析。
看起來是帶有 Deep Think 的高級版 Gemini 剛剛解決了 IMO 6 道題中的 5 道,總分獲得 35 分,正式實現金牌級表現。 恭喜您取得成就 @lmthang❗️迫不及待地想玩這個模型
42.71K