Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Генеральный директор и член технического персонала @sourcegraph @ampcode
Оценка агентов по коду полезна для улучшения вашего агента, но не для доказательства того, что он лучший (что бы это ни значило). Вот почему мы не говорим об оценках публично.
Но многие люди спрашивают, поэтому вот более длинное объяснение, почему они не имеют смысла для сравнения агент-агент.
Прошлой ночью, спонтанно, я запустил оценки Next.js[0] против @AmpCode и получил [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, что значительно выше следующего по высоте (Claude Code) на уровне 42%.
Затем я попросил некоторых других людей попытаться воспроизвести эти результаты. Другие люди получили [REDACTED]% для Amp, некоторые с AGENTS𛲔md, который выглядел следующим образом:
> При работе в проекте Next.js всегда запускайте `npm exec tsc -b`, чтобы проверить наличие ошибок типов, а затем `npm run build` и `npm run test`, перед тем как закончить. Исправьте любые ошибки, которые вы видите, и попробуйте снова, пока ошибок не останется.
При использовании Claude Code с этим в CLAUDE𛲔md, он достиг 72% (вырос с 40-42% без него).
Выводы:
• Простой файл AGENTS𛲔md значительно увеличивает процент успеха (на практике ~все реальные пользователи имеют один, но оценки редко предоставляют его)
• Высокая изменчивость между запусками (особенно сложно сделать кодирующих агентов детерминированными)
• Существует множество возможностей для других видов непреднамеренного дрейфа (меня беспокоит, что большинство результатов Terminal Bench не проверяются независимо, например)
Также, с таким количеством различных наборов оценок, вы будете слышать только утверждения от создателей агентов о тех оценках, в которых они, как им кажется, преуспевают (p-hacking встречается с "Почему большинство опубликованных результатов исследований ложны").
Было бы нечестно утверждать, что эти цифры означают, что Amp лучший. Это слишком искусственная среда, и слишком много случайности. И я не думаю, что кто-то когда-либо выбирал кодирующего агента из-за результатов бенчмарка, тем более из-за тех, что сообщаются первой стороной.
Но оценки действительно помогают нам сделать Amp лучше. Вы можете увидеть из одного отчета, что Amp каждый раз не справлялся с определенными случаями, что мы изучим. И мы проводим всевозможные узкие оценки, такие как для нашего поискового подсистемы[1].
ПРИМЕЧАНИЕ: Это не предназначено как упрек к оценкам Next.js /совсем/. Это отличный набор оценок в целом и выполняет свою задачу, помогая нам сделать Amp лучше в вопросах Next.js.
[REDACTED]: Я получил 50-58% в своих первоначальных оценках Amp, а другие получили 48-76%.


24,09K
Вот почему выбор модели не имеет смысла.
1. Создайте агента для вызова инструментов
2. Улучшите инструменты
3. Некоторые инструменты становятся подагентами в фоновом режиме
4. Разные подагенты требуют разных моделей
5. Возможно, даже свои собственные модели
6. Так что же будет выбирать выбор модели?

32,66K
Поговорил с @toolmantim о Amp Free:
• Почему мы убрали обучение
• Можно ли использовать комбинацию режимов `free` и `smart`?
• Чем это отличается от бесплатных моделей с другими кодирующими агентами?

Quinn Slack24 окт., 17:26
Amp Free: теперь без необходимости в обучении, так что вы можете использовать его на работе.
Лучший бизнес-модель Интернета (реклама) снова приносит плоды: агент с кодом за $0, который соответствует тем же строгим стандартам информационной безопасности, что и платный режим `умного` Amp.
5,87K
Топ
Рейтинг
Избранное
