GPT-5 結果! + 長篇寫作更新:我新增了指示,幫助評審注意並懲罰過度使用不連貫的隱喻,並重新運行了排行榜。許多前沿模型在這種混亂中趨於一致,這已經成為一個問題。 一些排名變動;現在 Opus 4.1 是第一名
7.47K