Як GPT-5 порівнюється з Claude Opus 4.1 у агентських завданнях? З моменту їх випуску ми оцінюємо ці моделі на складних завданнях науки, вебу, сервісу та кодування. Результат заголовку: Незважаючи на економічну ефективність, поки що GPT-5 ніколи не очолює агентські таблиці лідерів. Більше евалів 🧵
Багато з цих результатів нас здивували, і ми плануємо дослідити їх уважніше. Але тенденції в цих тестах підтверджують, що GPT-5 не є ступінчастою зміною і не покращує інші моделі OpenAI. Але він проявляється в компромісі між вартістю та точністю — часто вони коштують набагато дешевше, ніж аналогічні моделі.
58,41K