GPT-5の結果! + 長文文章の更新: ジャッジが支離滅裂な比喩の使いすぎに気づき、罰するのに役立つ新しい指示を追加し、リーダーボードを再実行しました。多くのフロンティアモデルがこのスロープに収束し、問題になっていた。 いくつかのランク変更。現在、Opus 4.1 は #1 です
7.47K