Codificarea evaluărilor agenților este utilă pentru a vă îmbunătăți agentul, dar nu pentru a dovedi că este cel mai bun (orice ar însemna asta). De aceea nu vorbim public despre evaluări. Dar mulți oameni întreabă, așa că iată o explicație mai lungă a motivului pentru care nu sunt semnificative pentru comparația între agenți. Aseară, dintr-un capriciu, am alergat Next.js evals[0] împotriva @AmpCode și am primit [REDACTED; nu vreau să fie vorba despre numere, dar derulați în jos dacă este curios]%, cu mult peste următorul cel mai mare (Claude Code) la 42%. Apoi am rugat alți oameni să încerce să reproducă aceste rezultate. Alți oameni au primit [REDACTED]% pentru Amp, unii cu un AGENTS𛲔md care spunea după cum urmează: > Când lucrați într-un proiect Next.js, rulați întotdeauna 'npm exec tsc -b' pentru a verifica dacă există erori de tip, apoi 'npm run build' și 'npm run test', înainte de a termina. Remediați toate erorile pe care le vedeți și încercați din nou până când nu există erori. Când am folosit Claude Code cu acesta în CLAUDE𛲔md, a ajuns la 72% (în creștere de la 40-42% fără). Concluzii: • Un simplu fișier AGENTS𛲔md crește masiv rata de succes (în practică ~toți utilizatorii reali au unul, dar evaluările rar furnizează unul) • Variabilitate mare între rulări (este deosebit de greu să faci agenții de codare determiniști) • Există atât de multe oportunități pentru alte tipuri de derive neintenționate (mă face să fiu nervos că majoritatea rezultatelor Terminal Bench nu sunt validate independent, de exemplu) De asemenea, cu atât de multe seturi diferite de evaluări care există acum, veți auzi doar afirmațiile de la producătorii de agenți pentru evaluări pe care se întâmplă să se descurce bine (p-hacking-ul întâlnește "De ce majoritatea rezultatelor cercetărilor publicate sunt false"). Ar fi necinstit să pretindem că aceste cifre înseamnă că Amp este cel mai bun. Este un mediu prea artificial și există prea multă aleatorie. Și nu cred că cineva a ales vreodată un agent de codare din cauza rezultatelor de referință, cu atât mai puțin a celor raportate de prima parte. Dar evaluările ne ajută să facem Amp mai bun. Puteți vedea dintr-un raport că Amp a eșuat anumite cazuri de fiecare dată, pe care îl vom analiza. Și facem tot felul de evaluări înguste, cum ar fi pentru subagentul nostru de căutare[1]. NOTĂ: Acest lucru nu este menit să fie o săpătură împotriva evaluărilor Next.js /at all/. Este un set de evaluare grozav în general și își servește scopul de a ne ajuta să facem Amp mai bun la Next.js lucruri. [REDACTAT]: Am obținut 50-58% în evaluările mele inițiale de amplificare, iar alții au primit 48-76%.