Глубокое обсуждение агентов, gpt-5 и оценки моделей 👇
Amp — Research Preview
Amp — Research Preview18 часов назад
Поднимая агента - Эпизод 8 В этом эпизоде @beyang беседует с @camden_cheek о том, как команда Amp оценивает новые модели: почему вызов инструментов является ключевым отличием, как открытые модели, такие как K2 и Qwen, соотносятся друг с другом, какие изменения в GPT-5, и как качественные "проверки настроения" часто имеют большее значение, чем бенчмарки. Они также обсуждают субагентов, сплавы моделей и как будет выглядеть будущее агентного кодирования внутри Amp. Временные метки: 0:00 Введение — Почему оценка моделей важна 1:06 Мульти-модельная философия Amp 3:16 Почему Gemini Pro не прижился 4:55 Неудачи вызова инструментов и нарушения для пользователей 6:09 Упадок итераций против самокоррекции 10:08 Хайп вокруг открытых моделей (K2, Qwen) 11:22 "Эра 56k агентов" 18:01 Первые впечатления от GPT-5 20:35 Сплавление моделей и Oracle как запасной вариант 24:26 Как GPT-5 ощущается по-другому (личность и управляемость) 29:10 Преодоление порога удобства 38:13 Почему настроения важнее бенчмарков 44:18 Регрессионное тестирование и философия оценки 46:21 Будущее мульти-моделей > единственного победителя 52:38 Заключительные мысли
2,14K