GPT-5は、エージェントタスクにおいてClaude Opus 4.1とどのように比較されますか? リリース以来、私たちはこれらのモデルを困難な科学、Web、サービス、およびコードタスクで評価してきました。 見出しの結果: 費用対効果は高いものの、これまでのところ GPT-5 がエージェント リーダーボードのトップに立つことはありません。その他の評価 🧵
これらの結果の多くは私たちを驚かせ、より詳しく調査する予定です。しかし、これらのベンチマークの傾向は、GPT-5 が段階的な変更ではなく、OpenAI の他のモデルよりも改善されていないことを裏付けています。しかし、コストと精度のトレードオフで優れており、多くの場合、同等のモデルよりもはるかに安価です。
56.62K