一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

GPT-5在代理任务上与Claude Opus 4.1相比如何？自发布以来，我们一直在评估这些模型在科学、网络、服务和代码任务上的表现。主要结果：尽管具有成本效益，但到目前为止，GPT-5从未在代理排行榜上名列前茅。更多评估 🧵

这些结果中的许多让我们感到惊讶，我们计划更深入地调查它们。但这些基准的趋势确认，GPT-5 并不是一次飞跃，也没有改善 OpenAI 的其他模型。但它在成本与准确性的权衡上表现出色——通常比可比模型便宜得多。

48.14K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可