Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Toimitusjohtaja ja teknisen henkilöstön jäsen @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

10,06K
Koodausagenttien evalit ovat hyödyllisiä agentin parantamiseksi, mutta eivät sen todistamiseksi, että se on paras (mitä se sitten tarkoittaakaan). Siksi emme puhu julkisesti evaleista.
Mutta monet ihmiset kysyvät, joten tässä on pidempi selitys siitä, miksi ne eivät ole merkityksellisiä agenttien välisessä vertailussa.
Eilen illalla juoksin hetken mielijohteesta Next.js evals[0] @AmpCode vastaan ja sain [POISTETTU; en halua, että tässä on kyse numeroista, mutta vieritä alaspäin, jos olet utelias]%, selvästi seuraavaksi korkeimman (Claude-koodi) yläpuolella 42 %:lla.
Pyysin sitten joitain muita ihmisiä yrittämään toistaa nämä tulokset. Toiset ihmiset saivat [POISTETTU]% Ampista, joillakin AGENTIT𛲔md, joka kuului seuraavasti:
> Kun työskentelet Next.js projektissa, suorita aina 'npm exec tsc -b' tarkistaaksesi tyyppivirheet ja sitten 'npm run build' ja 'npm run test' ennen kuin lopetat. Korjaa näkemäsi virheet ja yritä uudelleen, kunnes virheitä ei ole.
Kun Claude Codea käytettiin CLAUDE𛲔md:n kanssa, se nousi 72 prosenttiin (40-42 prosentista ilman).
Takeawayt:
• Yksinkertainen AGENTS𛲔md-tiedosto lisää onnistumisprosenttia huomattavasti (käytännössä ~kaikilla todellisilla käyttäjillä on sellainen, mutta valit tarjoavat harvoin sellaista)
• Suuri vaihtelu ajojen välillä (koodausagenteista on erityisen vaikea tehdä deterministisiä)
• On niin paljon mahdollisuuksia toisenlaiseen tahattomaan ajautumiseen (minua hermostuttaa esimerkiksi se, että useimpia Terminal Bench -tuloksia ei validoida itsenäisesti)
Lisäksi, koska nyt on niin monia erilaisia eval-sarjoja, kuulet vain agenttien valmistajien väitteet evaleista, joissa he sattuvat menestymään hyvin (p-hakkerointi kohtaa "Miksi useimmat julkaistut tutkimustulokset ovat vääriä").
Olisi epärehellistä väittää, että nämä luvut tarkoittavat, että Amp on paras. Se on vain liian keinotekoinen ympäristö ja siinä on liikaa satunnaisuutta. Enkä usko, että kukaan on oikeastaan koskaan valinnut koodausagenttia vertailutulosten vuoksi, saati sitten 1. osapuolen raportoimien tulosten vuoksi.
Mutta evalit auttavat meitä tekemään Ampista paremman. Yhdestä raportista näet, että Amp epäonnistui joka kerta tietyissä tapauksissa, joita tutkimme. Ja teemme kaikenlaisia kapeita evaleja, kuten hakualiagentillemme[1].
HUOM: Tätä ei ole tarkoitettu kaivamiseksi Next.js evals-arvoja vastaan /ollenkaan/. Se on kaiken kaikkiaan loistava ja palvelee tarkoitustaan auttaa meitä tekemään Ampista paremman Next.js asioissa.
[MUOKATTU]: Sain 50-58 % ensimmäisissä vahvistimissani, ja muut saivat 48-76 %.


24,46K
Johtavat
Rankkaus
Suosikit

