Виховання агента - Епізод 8 У цьому епізоді @beyang сідає з @camden_cheek, щоб обговорити, як команда Amp оцінює нові моделі: чому виклик інструментів є ключовою відмінністю, як складаються відкриті моделі, такі як K2 і Qwen, які зміни в GPT-5 і як якісні «перевірки вайбу» часто мають більше значення, ніж бенчмарки. Вони також занурюються в субагенти, модельні сплави та те, як виглядає майбутнє агентного кодування всередині Amp. Мітки: 0:00 Вступ — Чому модель eval має значення 1:06 Філософія мультимоделі Amp 3:16 Чому Gemini Pro не приклеївся 4:55 Збої в дзвінках інструментів і збої в роботі користувачів 6:09 Розпад ітерації проти самокорекції 10:08 Ажіотаж на відкритих моделях (K2, Qwen) 11:22 "56-тисячна ера агентів" 18:01 Перші враження від GPT-5 20:35 Легуючі моделі та Oracle як запасний варіант 24:26 Як GPT-5 відчувається по-іншому (особистість та керованість) 29:10 Перетин порогу зручності використання 38:13 Чому вібрації > орієнтири 44:18 Регресійне тестування та філософія eval 46:21 Переможець багатомодельного майбутнього > одиночного розряду 52:38 Заключні думки
10,65K