Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Prezes Zarządu i Członek Personelu Technicznego @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,2K
Potrzebujemy kogoś, kto dołączy do zespołu Amp i pomoże nam zbudować infrastrukturę reklamową oraz przepływy użytkowników dla Amp Free.
Backend, frontend, wysyłanie wielu razy dziennie i praca z klientami. Ta rola jest tylko w San Francisco. Dużo ciężkiej pracy i niepewności. Napisz do mnie w wiadomości prywatnej.
21,2K
Ewaluacje agentów kodowania są przydatne do poprawy twojego agenta, ale nie do udowodnienia, że jest najlepszy (cokolwiek to znaczy). Dlatego nie rozmawiamy publicznie o ewaluacjach.
Ale wiele osób pyta, więc oto dłuższe wyjaśnienie, dlaczego nie są one znaczące dla porównań agentów.
Wczoraj wieczorem, z kaprysu, uruchomiłem ewaluacje Next.js[0] przeciwko @AmpCode i uzyskałem [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, znacznie powyżej następnego najwyższego (Claude Code) na poziomie 42%.
Następnie poprosiłem kilka innych osób o próbę powtórzenia tych wyników. Inni uzyskali [REDACTED]% dla Amp, niektórzy z AGENTS𛲔md, który brzmiał następująco:
> Pracując w projekcie Next.js, zawsze uruchamiaj `npm exec tsc -b`, aby sprawdzić błędy typów, a następnie `npm run build` i `npm run test`, przed zakończeniem. Napraw wszelkie błędy, które widzisz i spróbuj ponownie, aż nie będzie błędów.
Kiedy używano Claude Code z tym w CLAUDE𛲔md, uzyskał do 72% (wzrost z 40-42% bez tego).
Wnioski:
• Prosty plik AGENTS𛲔md znacznie zwiększa wskaźnik sukcesu (w praktyce ~wszyscy prawdziwi użytkownicy go mają, ale ewaluacje rzadko go dostarczają)
• Wysoka zmienność między uruchomieniami (szczególnie trudno jest uczynić agentów kodowania deterministycznymi)
• Istnieje wiele możliwości niezamierzonego dryfu (martwi mnie, że większość wyników Terminal Bench nie jest niezależnie weryfikowana, na przykład)
Ponadto, z tak wieloma różnymi zestawami ewaluacyjnymi, usłyszysz tylko twierdzenia od twórców agentów dotyczące ewaluacji, w których dobrze sobie radzą (p-hacking spotyka "Dlaczego większość opublikowanych wyników badań jest fałszywa").
Byłoby nieuczciwe twierdzić, że te liczby oznaczają, że Amp jest najlepszy. To zbyt sztuczne środowisko i jest zbyt dużo przypadkowości. I nie sądzę, żeby ktokolwiek naprawdę wybierał agenta kodowania na podstawie wyników benchmarków, tym bardziej tych raportowanych przez pierwszą stronę.
Ale ewaluacje pomagają nam uczynić Amp lepszym. Możesz zobaczyć z jednego raportu, że Amp nie zdał pewnych przypadków za każdym razem, co zbadamy. I przeprowadzamy wszelkiego rodzaju wąskie ewaluacje, takie jak dla naszego podagenta wyszukiwania[1].
UWAGA: To nie jest zamierzone jako atak na ewaluacje Next.js /wcale/. To świetny zestaw ewaluacyjny ogólnie i spełnia swoją rolę, aby pomóc nam uczynić Amp lepszym w sprawach związanych z Next.js.
[REDACTED]: Uzyskałem 50-58% w moich początkowych ewaluacjach Amp, a inni uzyskali 48-76%.


24,44K
Najlepsze
Ranking
Ulubione

