一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

GPT-5 在代理任務上與 Claude Opus 4.1 的比較如何？自它們發布以來，我們一直在評估這些模型在挑戰性的科學、網絡、服務和代碼任務上的表現。主要結果：雖然成本效益高，但到目前為止，GPT-5 從未在代理排行榜上名列前茅。更多評估 🧵

許多這些結果讓我們感到驚訝，我們計劃更仔細地調查它們。但這些基準的趨勢證實，GPT-5 並不是一個質的飛躍，並且並未在 OpenAI 的其他模型上有所改善。但它在成本與準確性之間的權衡上表現出色——通常比可比模型便宜得多。

56.62K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可