DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Quinn Slack

CEO en lid van de technische staf @sourcegraph @ampcode

Coding agent evaluaties zijn nuttig om je agent beter te maken, maar niet om te bewijzen dat het de beste is (wat dat ook betekent). Daarom praten we niet publiekelijk over evaluaties. Maar veel mensen vragen het, dus hier is een langere uitleg waarom ze niet betekenisvol zijn voor vergelijking tussen agenten. Gisteravond, op een impuls, heb ik de Next.js evaluaties[0] uitgevoerd tegen @AmpCode en kreeg [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, ver boven de volgende hoogste (Claude Code) met 42%. Ik vroeg toen andere mensen om te proberen deze resultaten te repliceren. Andere mensen kregen [REDACTED]% voor Amp, sommigen met een AGENTS𛲔md die als volgt luidde: > Wanneer je werkt aan een Next.js project, voer altijd `npm exec tsc -b` uit om te controleren op typefouten, en daarna `npm run build` en `npm run test`, voordat je klaar bent. Los eventuele fouten op die je ziet en probeer het opnieuw totdat er geen fouten meer zijn. Bij het gebruik van Claude Code met dat in de CLAUDE𛲔md, kwam het tot 72% (van 40-42% zonder). Conclusies: • Een eenvoudig AGENTS𛲔md bestand verhoogt de slagingskans enorm (in de praktijk heeft ~alle echte gebruikers er een, maar evaluaties leveren zelden een) • Hoge variabiliteit tussen runs (het is vooral moeilijk om coderende agenten deterministisch te maken) • Er zijn zoveel kansen voor andere soorten onbedoelde drift (maakt me nerveus dat de meeste Terminal Bench resultaten niet onafhankelijk zijn gevalideerd, bijvoorbeeld) Bovendien, met zoveel verschillende evaluatiesets die er nu zijn, ga je alleen de claims horen van agentenmakers voor de evaluaties waarop ze toevallig goed presteren (p-hacking ontmoet "Waarom de meeste gepubliceerde onderzoeksresultaten onjuist zijn"). Het zou oneerlijk zijn om te beweren dat deze cijfers betekenen dat Amp de beste is. Het is gewoon te kunstmatig van een omgeving en er is te veel willekeur. En ik denk niet dat iemand ooit echt een coderende agent heeft gekozen vanwege benchmarkresultaten, laat staan 1st-party-gerapporteerde resultaten. Maar evaluaties helpen ons Amp beter te maken. Je kunt uit één rapport zien dat Amp bepaalde gevallen elke keer faalde, waar we naar zullen kijken. En we doen allerlei soorten smalle evaluaties, zoals voor onze zoeksubagent[1]. OPMERKING: Dit is niet bedoeld als een aanval op de Next.js evaluaties /helemaal niet/. Het is een geweldige evaluatieset in het algemeen en dient zijn doel om ons te helpen Amp beter te maken in Next.js zaken. [REDACTED]: Ik kreeg 50-58% in mijn initiële Amp evaluaties, en anderen kregen 48-76%.

Boven

Positie

Favorieten