DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Quinn Slack

Geschäftsführer und Mitglied des technischen Personals @sourcegraph @ampcode

Coding-Agent-Evaluierungen sind nützlich, um Ihren Agenten zu verbessern, aber nicht um zu beweisen, dass er der beste ist (was auch immer das bedeutet). Deshalb sprechen wir nicht öffentlich über Evaluierungen. Aber viele Leute fragen, also hier ist eine längere Erklärung, warum sie für den Vergleich von Agent zu Agent nicht aussagekräftig sind. Letzte Nacht habe ich spontan die Next.js-Evaluierungen[0] gegen @AmpCode durchgeführt und erhielt [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, weit über dem nächsten Höchstwert (Claude Code) mit 42%. Ich habe dann einige andere Leute gebeten, diese Ergebnisse zu replizieren. Andere Leute erhielten [REDACTED]% für Amp, einige mit einem AGENTS𛲔md, das wie folgt lautete: > Wenn Sie in einem Next.js-Projekt arbeiten, führen Sie immer `npm exec tsc -b` aus, um nach Typfehlern zu suchen, und dann `npm run build` und `npm run test`, bevor Sie fertigstellen. Beheben Sie alle Fehler, die Sie sehen, und versuchen Sie es erneut, bis keine Fehler mehr vorhanden sind. Bei der Verwendung von Claude Code mit diesem in der CLAUDE𛲔md erreichte es bis zu 72% (von 40-42% ohne). Erkenntnisse: • Eine einfache AGENTS𛲔md-Datei erhöht die Erfolgsquote massiv (in der Praxis haben ~alle echten Benutzer eine, aber Evaluierungen liefern selten eine) • Hohe Variabilität über die Durchläufe hinweg (es ist besonders schwierig, Coding-Agenten deterministisch zu machen) • Es gibt so viele Möglichkeiten für andere Arten von unbeabsichtigtem Drift (macht mich nervös, dass die meisten Terminal-Bench-Ergebnisse nicht unabhängig validiert sind, zum Beispiel) Außerdem, mit so vielen verschiedenen Evaluierungssets, werden Sie nur die Ansprüche von Agentenherstellern zu den Evaluierungen hören, bei denen sie zufällig gut abschneiden (p-hacking trifft auf "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind"). Es wäre unehrlich zu behaupten, dass diese Zahlen bedeuten, dass Amp der beste ist. Es ist einfach zu künstlich und es gibt zu viel Zufälligkeit. Und ich glaube nicht, dass jemals jemand einen Coding-Agenten aufgrund von Benchmark-Ergebnissen gewählt hat, geschweige denn von 1st-party-berichterstatteten. Aber Evaluierungen helfen uns, Amp besser zu machen. Sie können aus einem Bericht sehen, dass Amp in bestimmten Fällen jedes Mal versagt hat, was wir uns ansehen werden. Und wir führen alle Arten von engen Evaluierungen durch, wie zum Beispiel für unseren Suchunteragenten[1]. HINWEIS: Dies ist nicht als Kritik an den Next.js-Evaluierungen /überhaupt/ gemeint. Es ist insgesamt ein großartiges Evaluierungsset und erfüllt seinen Zweck, um uns zu helfen, Amp bei Next.js-Dingen besser zu machen. [REDACTED]: Ich erhielt 50-58% in meinen ersten Amp-Evaluierungen, und andere erhielten 48-76%.

Top

Ranking

Favoriten