热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GPT-5在代理任务上与Claude Opus 4.1相比如何?
自发布以来,我们一直在评估这些模型在科学、网络、服务和代码任务上的表现。
主要结果:尽管具有成本效益,但到目前为止,GPT-5从未在代理排行榜上名列前茅。更多评估 🧵

这些结果中的许多让我们感到惊讶,我们计划更深入地调查它们。但这些基准的趋势确认,GPT-5 并不是一次飞跃,也没有改善 OpenAI 的其他模型。但它在成本与准确性的权衡上表现出色——通常比可比模型便宜得多。
48.14K
热门
排行
收藏