GPT-OSS 在需要原始工具调用的基准测试中表现不佳。例如,CORE-Bench 要求代理运行 bash 命令以重现科学论文。 DeepSeek V3 得分 18%。 GPT-OSS 得分 11%。
Nathan Lambert
Nathan Lambert8月12日 23:44
gpt-oss 是一个仅用于处理/推理的引擎。使用起来有点困难的开放模型。个人认为其吸引力将有限。 获得吸引力的最佳方式是发布灵活、易于使用且可靠的模型,而无需工具。然后,像工具使用这样的定制有趣模型可以在后期推出。
6.08K