DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Quinn Slack

VD och teknisk personal @sourcegraph @ampcode

Kodning av agentval är användbara för att göra din agent bättre, men inte för att bevisa att den är den bästa (vad det nu betyder). Det är därför vi inte pratar offentligt om evals. Men många frågar, så här är en längre förklaring till varför de inte är meningsfulla för jämförelse mellan agenter. Igår kväll, på ett infall, körde jag de Next.js evals[0] mot @AmpCode och fick [REDIGERAD; Jag vill inte att det här ska handla om siffrorna, men scrolla ner om jag är nyfiken]%, långt över den näst högsta (Claude Code) på 42%. Jag bad sedan några andra personer att försöka replikera dessa resultat. Andra personer fick [REDIGERAD]% för Amp, några med en AGENTS𛲔md som löd som följer: > När du arbetar i ett Next.js projekt ska du alltid köra "npm exec tsc -b" för att kontrollera om det finns typfel och sedan "npm run build" och "npm run test" innan du avslutar. Åtgärda eventuella fel som du ser och försök igen tills det inte finns några fel. När man använde Claude Code med det i CLAUDE𛲔md fick den upp till 72% (upp från 40-42% utan). Att ta med sig: • En enkel AGENTS𛲔md-fil ökar kraftigt framgångsfrekvensen (i praktiken har ~alla riktiga användare en, men evals tillhandahåller sällan en) • Hög variabilitet mellan körningar (det är särskilt svårt att göra kodningsagenter deterministiska) • Det finns så många möjligheter för andra typer av oavsiktlig drift (gör mig nervös att de flesta Terminal Bench-resultat inte valideras oberoende, till exempel) Dessutom, med så många olika eval-set där ute nu, kommer du bara att höra påståendena från agenttillverkare för de evals som de råkar göra bra ifrån sig på (p-hacking uppfyller "Why Most Published Research Findings Are False"). Det skulle vara oärligt att hävda att dessa siffror betyder att Amp är bäst. Det är helt enkelt en för artificiell miljö och det finns för mycket slumpmässighet. Och jag tror inte att någon egentligen någonsin har valt en kodningsagent på grund av benchmarkresultat, än mindre 1:a parts rapporterade. Men utvärderingar hjälper oss att göra Amp bättre. Du kan se från en rapport att Amp misslyckades med vissa fall varje gång, vilket vi kommer att undersöka. Och vi gör alla typer av smala utvärderingar, till exempel för vår sökunderagent[1]. OBS: Detta är inte menat som en grävning mot de Next.js evals /alls/. Det är ett fantastiskt eval-set överlag och tjänar sitt syfte att hjälpa oss att göra Amp bättre på Next.js saker. [REDIGERAD]: Jag fick 50-58 % i mina första Amp-utvärderingar, och andra fick 48-76 %.

Topp

Rankning

Favoriter