Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Кодувальні агенти evals корисні для того, щоб зробити вашого агента кращим, але не для того, щоб довести, що він найкращий (що б це не означало). Тому ми не говоримо публічно про евали. Але багато людей запитують, тому ось довге пояснення того, чому вони не мають сенсу для порівняння агентів з агентами. Минулої ночі, з примхи, я пробіг Next.js evals[0] проти @AmpCode і отримав [ВИДАЛЕНО; Я не хочу, щоб це стосувалося цифр, але прокрутіть вниз, якщо цікаво]%, що значно вище наступного найвищого показника (Клод Код) у 42%. Потім я попросив деяких інших людей спробувати повторити ці результати. Інші люди отримали [ВИДАЛЕНО] % за Amp, деякі з AGENTS𛲔md, який говорив наступне: > Під час роботи в проекті Next.js завжди запускайте 'npm exec tsc -b', щоб перевірити наявність помилок типу, а потім 'npm run build' і 'npm run test', перш ніж закінчити. Виправте всі помилки, які ви бачите, і повторіть спробу, доки помилки не зникнуть. При використанні Claude Code з тим, що в CLAUDE𛲔md, він отримав до 72% (проти 40-42% без). Висновки: • Простий файл AGENTS𛲔md значно підвищує відсоток успіху (на практиці ~всі реальні користувачі мають один, але evals рідко надають такий) • Висока варіативність між прогонами (особливо важко зробити кодуючих агентів детермінованими) • Існує так багато можливостей для інших видів ненавмисного дрейфу (змушує мене нервувати, що більшість результатів Terminal Bench не перевіряються незалежно, наприклад) Крім того, з такою кількістю різних наборів eval, які зараз існують, ви почуєте лише заяви від агентів-мейкерів щодо евалів, на яких вони добре справляються (p-hacking зустрічається з "Чому більшість опублікованих результатів досліджень є помилковими"). Було б нечесно стверджувати, що ці цифри означають, що Amp найкращий. Це просто занадто штучне середовище і занадто багато випадковості. І я не думаю, що хтось дійсно коли-небудь вибирав агента з кодування через порівняльні результати, не кажучи вже про ті, про які повідомили 1-а сторона. Але evals допомагають нам зробити Amp кращим. З одного звіту можна побачити, що Amp щоразу виходив з ладу в певних випадках, які ми розглянемо. І ми робимо всілякі вузькі евали, наприклад, для нашого пошукового субагента[1]. ПРИМІТКА: Це не мається на увазі як підкоп проти Next.js евалів /взагалі/. Це чудовий eval набір в цілому, який служить своїй меті, щоб допомогти нам зробити Amp кращим у Next.js речах. [ВИДАЛЕНО]: Я отримав 50-58% у моїх початкових евалах Amp, а інші отримали 48-76%.

Найкращі

Рейтинг

Вибране