GPT-5 结果! + 长篇写作更新:我添加了新的指示,以帮助评审注意并惩罚对不连贯隐喻的过度使用,并重新运行了排行榜。许多前沿模型在这种糟糕的表现上趋同,已经成为一个问题。 一些排名变化;现在 Opus 4.1 是第一名。
7.47K