トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5は、エージェントタスクにおいてClaude Opus 4.1とどのように比較されますか?
リリース以来、私たちはこれらのモデルを困難な科学、Web、サービス、およびコードタスクで評価してきました。
見出しの結果: 費用対効果は高いものの、これまでのところ GPT-5 がエージェント リーダーボードのトップに立つことはありません。その他の評価 🧵

これらの結果の多くは私たちを驚かせ、より詳しく調査する予定です。しかし、これらのベンチマークの傾向は、GPT-5 が段階的な変更ではなく、OpenAI の他のモデルよりも改善されていないことを裏付けています。しかし、コストと精度のトレードオフで優れており、多くの場合、同等のモデルよりもはるかに安価です。
56.62K
トップ
ランキング
お気に入り