1/N 最新の@OpenAI実験的推論 LLM が、世界で最も権威のある数学コンテストである国際数学オリンピック (IMO) で金メダルレベルの成績という、AI における長年の壮大な課題を達成したことを共有できることを嬉しく思います。
2/N 2025年のIMO問題について、人間の出場者と同じルール(4.5時間の試験セッションを2回、ツールやインターネットなし、公式の問題ステートメントを読み、自然言語証明を書く)でモデルを評価しました。
4/N 第二に、IMOの提出物は検証が困難で、複数ページにわたる証明です。ここでの進歩には、明確で検証可能な報酬というRLパラダイムを超えることが求められています。そうすることで、人間の数学者レベルで複雑で水密な議論を作成できるモデルが得られました。
5/N 結果自体に加えて、私は私たちのアプローチに興奮しています:私たちは、狭いタスク固有の方法論ではなく、汎用強化学習とテスト時のコンピューティングスケーリングの新境地を開拓することによって、この能力レベルに到達します。
6/N 私たちの評価では、このモデルは 2025 年の IMO の 6 つの問題のうち 5 つを解決しました。各問題について、3人の元IMOメダリストがモデルが提出した証明を独立して採点し、全会一致の合意の後にスコアが最終決定されました。このモデルは合計で 35/42 ポイントを獲得し、ゴールドに十分なポイントを獲得しました。🥇
8/Nところで、GPT-5は間もなくリリースされますので、ぜひお試しください。ただし、はっきりさせておきますが、IMO ゴールド LLM は実験的な研究モデルです。このレベルの数学能力を備えたものを数か月間リリースする予定はありません。
9/N それでも、これは近年 AI がいかに急速に進歩しているかを浮き彫りにしています。2021年、博士課程の指導教員から、2025年7月までにAI数学の進捗状況を予測させられた@JacobSteinhardt。私はMATHベンチマークで30%を予測しました(そして、他の人は楽観的すぎると思いました)。代わりに、IMOの金があります。
11/N 最後に、2025 IMOの参加者の皆様の功績を祝福したいと思います。私たちは、@OpenAIに多くの過去のIMO参加者がいることを誇りに思っており、彼らが未来の最も聡明な若者の一人であることを認識しています。
1.4M