Как GPT-5 сравнивается с Claude Opus 4.1 в агентных задачах? С момента их выпуска мы оцениваем эти модели по сложным задачам в области науки, веба, сервиса и кода. Основной результат: хотя GPT-5 экономически эффективен, он пока никогда не занимает первые места в агентных рейтингах. Больше оценок 🧵
Многие из этих результатов удивили нас, и мы планируем исследовать их более подробно. Но тенденции по этим бенчмаркам подтверждают, что GPT-5 не является революционным шагом и не превосходит другие модели OpenAI. Однако он выделяется в соотношении цена-точность — часто обходится значительно дешевле, чем сопоставимые модели.
56,63K