OpenAIはGPT-5.2の長尺タスクでの成功率を考慮してGDPvalの図7を更新しなかったため、GPT-5.2 Proを使って更新しました。 このチャートは、長い作業をAIに任せ、出力を1時間評価し、再挑戦するか諦めて自分でやるかのプロセスを前提としています。
オリジナル(GPT-5は人間の専門家に対して39%の勝率があり、GPT-5.2は約72%でした)
GDPvalは昨年の最も重要なAI論文の一つとして残っています。AIが経済的に価値のある仕事を成し遂げるビジョン。
189