Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Prezes Zarządu i Członek Personelu Technicznego @sourcegraph @ampcode
Ewaluacje agentów kodowania są przydatne do poprawy twojego agenta, ale nie do udowodnienia, że jest najlepszy (cokolwiek to znaczy). Dlatego nie rozmawiamy publicznie o ewaluacjach.
Ale wiele osób pyta, więc oto dłuższe wyjaśnienie, dlaczego nie są one znaczące dla porównań agentów.
Wczoraj wieczorem, z kaprysu, uruchomiłem ewaluacje Next.js[0] przeciwko @AmpCode i uzyskałem [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, znacznie powyżej następnego najwyższego (Claude Code) na poziomie 42%.
Następnie poprosiłem kilka innych osób o próbę powtórzenia tych wyników. Inni uzyskali [REDACTED]% dla Amp, niektórzy z AGENTS𛲔md, który brzmiał następująco:
> Pracując w projekcie Next.js, zawsze uruchamiaj `npm exec tsc -b`, aby sprawdzić błędy typów, a następnie `npm run build` i `npm run test`, przed zakończeniem. Napraw wszelkie błędy, które widzisz i spróbuj ponownie, aż nie będzie błędów.
Kiedy używano Claude Code z tym w CLAUDE𛲔md, uzyskał do 72% (wzrost z 40-42% bez tego).
Wnioski:
• Prosty plik AGENTS𛲔md znacznie zwiększa wskaźnik sukcesu (w praktyce ~wszyscy prawdziwi użytkownicy go mają, ale ewaluacje rzadko go dostarczają)
• Wysoka zmienność między uruchomieniami (szczególnie trudno jest uczynić agentów kodowania deterministycznymi)
• Istnieje wiele możliwości niezamierzonego dryfu (martwi mnie, że większość wyników Terminal Bench nie jest niezależnie weryfikowana, na przykład)
Ponadto, z tak wieloma różnymi zestawami ewaluacyjnymi, usłyszysz tylko twierdzenia od twórców agentów dotyczące ewaluacji, w których dobrze sobie radzą (p-hacking spotyka "Dlaczego większość opublikowanych wyników badań jest fałszywa").
Byłoby nieuczciwe twierdzić, że te liczby oznaczają, że Amp jest najlepszy. To zbyt sztuczne środowisko i jest zbyt dużo przypadkowości. I nie sądzę, żeby ktokolwiek naprawdę wybierał agenta kodowania na podstawie wyników benchmarków, tym bardziej tych raportowanych przez pierwszą stronę.
Ale ewaluacje pomagają nam uczynić Amp lepszym. Możesz zobaczyć z jednego raportu, że Amp nie zdał pewnych przypadków za każdym razem, co zbadamy. I przeprowadzamy wszelkiego rodzaju wąskie ewaluacje, takie jak dla naszego podagenta wyszukiwania[1].
UWAGA: To nie jest zamierzone jako atak na ewaluacje Next.js /wcale/. To świetny zestaw ewaluacyjny ogólnie i spełnia swoją rolę, aby pomóc nam uczynić Amp lepszym w sprawach związanych z Next.js.
[REDACTED]: Uzyskałem 50-58% w moich początkowych ewaluacjach Amp, a inni uzyskali 48-76%.


20,2K
Rozmawiałem z @toolmantim o Amp Free:
• Dlaczego usunęliśmy trening
• Czy można użyć kombinacji trybu `free` i `smart`?
• Jak to się różni od modeli darmowych z innymi agentami kodującymi?

Quinn Slack24 paź, 17:26
Amp Free: teraz bez potrzeby szkolenia, więc możesz go używać w pracy.
Najlepszy model biznesowy w Internecie (reklama) ponownie dostarcza: agent kodujący za $0, który spełnia te same rygorystyczne standardy infosec, co płatny tryb `smart` Amp.
5,85K
Najlepsze
Ranking
Ulubione

