熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-5 在代理任務上與 Claude Opus 4.1 的比較如何?
自它們發布以來,我們一直在評估這些模型在挑戰性的科學、網絡、服務和代碼任務上的表現。
主要結果:雖然成本效益高,但到目前為止,GPT-5 從未在代理排行榜上名列前茅。更多評估 🧵

許多這些結果讓我們感到驚訝,我們計劃更仔細地調查它們。但這些基準的趨勢證實,GPT-5 並不是一個質的飛躍,並且並未在 OpenAI 的其他模型上有所改善。但它在成本與準確性之間的權衡上表現出色——通常比可比模型便宜得多。
56.62K
熱門
排行
收藏