Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кодувальні агенти evals корисні для того, щоб зробити вашого агента кращим, але не для того, щоб довести, що він найкращий (що б це не означало). Тому ми не говоримо публічно про евали.
Але багато людей запитують, тому ось довге пояснення того, чому вони не мають сенсу для порівняння агентів з агентами.
Минулої ночі, з примхи, я пробіг Next.js evals[0] проти @AmpCode і отримав [ВИДАЛЕНО; Я не хочу, щоб це стосувалося цифр, але прокрутіть вниз, якщо цікаво]%, що значно вище наступного найвищого показника (Клод Код) у 42%.
Потім я попросив деяких інших людей спробувати повторити ці результати. Інші люди отримали [ВИДАЛЕНО] % за Amp, деякі з AGENTS𛲔md, який говорив наступне:
> Під час роботи в проекті Next.js завжди запускайте 'npm exec tsc -b', щоб перевірити наявність помилок типу, а потім 'npm run build' і 'npm run test', перш ніж закінчити. Виправте всі помилки, які ви бачите, і повторіть спробу, доки помилки не зникнуть.
При використанні Claude Code з тим, що в CLAUDE𛲔md, він отримав до 72% (проти 40-42% без).
Висновки:
• Простий файл AGENTS𛲔md значно підвищує відсоток успіху (на практиці ~всі реальні користувачі мають один, але evals рідко надають такий)
• Висока варіативність між прогонами (особливо важко зробити кодуючих агентів детермінованими)
• Існує так багато можливостей для інших видів ненавмисного дрейфу (змушує мене нервувати, що більшість результатів Terminal Bench не перевіряються незалежно, наприклад)
Крім того, з такою кількістю різних наборів eval, які зараз існують, ви почуєте лише заяви від агентів-мейкерів щодо евалів, на яких вони добре справляються (p-hacking зустрічається з "Чому більшість опублікованих результатів досліджень є помилковими").
Було б нечесно стверджувати, що ці цифри означають, що Amp найкращий. Це просто занадто штучне середовище і занадто багато випадковості. І я не думаю, що хтось дійсно коли-небудь вибирав агента з кодування через порівняльні результати, не кажучи вже про ті, про які повідомили 1-а сторона.
Але evals допомагають нам зробити Amp кращим. З одного звіту можна побачити, що Amp щоразу виходив з ладу в певних випадках, які ми розглянемо. І ми робимо всілякі вузькі евали, наприклад, для нашого пошукового субагента[1].
ПРИМІТКА: Це не мається на увазі як підкоп проти Next.js евалів /взагалі/. Це чудовий eval набір в цілому, який служить своїй меті, щоб допомогти нам зробити Amp кращим у Next.js речах.
[ВИДАЛЕНО]: Я отримав 50-58% у моїх початкових евалах Amp, а інші отримали 48-76%.


Найкращі
Рейтинг
Вибране

