GPT-5在代理任务上与Claude Opus 4.1相比如何? 自发布以来,我们一直在评估这些模型在科学、网络、服务和代码任务上的表现。 主要结果:尽管具有成本效益,但到目前为止,GPT-5从未在代理排行榜上名列前茅。更多评估 🧵
这些结果中的许多让我们感到惊讶,我们计划更深入地调查它们。但这些基准的趋势确认,GPT-5 并不是一次飞跃,也没有改善 OpenAI 的其他模型。但它在成本与准确性的权衡上表现出色——通常比可比模型便宜得多。
48.14K