減少幻覺的效果很好,但這些基準測試在同等條件下似乎只是相對小幅的改進。 在 Aider Polyglot 上,5 的分數比 4o 高出 0.9 分,這是毫不費力的。 在 MMMU 上,比 4o 高出 2.2 分。
Carl Vellotti
Carl Vellotti8月8日 01:12
GPT-5 基準測試剛剛發布 – 在編碼方面表現更好 – 視覺推理超過人類博士 – 幻覺大幅減少 我們將看看這些基準測試的結果,但它們看起來非常驚人
仍然很期待使用!
3K