幻觉减少效果很好,但这些基准测试在同类比较中似乎只是相对较小的改进。 在 Aider Polyglot 上,5 的分数比 4o 高出 0.9 分。 在 MMMU 上,比 4o 高出 2.2 分。
Carl Vellotti
Carl Vellotti8月8日 01:12
GPT-5 基准测试刚刚发布 – 编码能力大幅提升 – 视觉推理能力超过人类博士 – 幻觉现象大幅减少 我们将看看这些基准测试的结果如何,但它们看起来非常惊人
仍然很兴奋使用!
3.02K