Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
VD och teknisk personal @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,2K
Kodning av agentval är användbara för att göra din agent bättre, men inte för att bevisa att den är den bästa (vad det nu betyder). Det är därför vi inte pratar offentligt om evals.
Men många frågar, så här är en längre förklaring till varför de inte är meningsfulla för jämförelse mellan agenter.
Igår kväll, på ett infall, körde jag de Next.js evals[0] mot @AmpCode och fick [REDIGERAD; Jag vill inte att det här ska handla om siffrorna, men scrolla ner om jag är nyfiken]%, långt över den näst högsta (Claude Code) på 42%.
Jag bad sedan några andra personer att försöka replikera dessa resultat. Andra personer fick [REDIGERAD]% för Amp, några med en AGENTS𛲔md som löd som följer:
> När du arbetar i ett Next.js projekt ska du alltid köra "npm exec tsc -b" för att kontrollera om det finns typfel och sedan "npm run build" och "npm run test" innan du avslutar. Åtgärda eventuella fel som du ser och försök igen tills det inte finns några fel.
När man använde Claude Code med det i CLAUDE𛲔md fick den upp till 72% (upp från 40-42% utan).
Att ta med sig:
• En enkel AGENTS𛲔md-fil ökar kraftigt framgångsfrekvensen (i praktiken har ~alla riktiga användare en, men evals tillhandahåller sällan en)
• Hög variabilitet mellan körningar (det är särskilt svårt att göra kodningsagenter deterministiska)
• Det finns så många möjligheter för andra typer av oavsiktlig drift (gör mig nervös att de flesta Terminal Bench-resultat inte valideras oberoende, till exempel)
Dessutom, med så många olika eval-set där ute nu, kommer du bara att höra påståendena från agenttillverkare för de evals som de råkar göra bra ifrån sig på (p-hacking uppfyller "Why Most Published Research Findings Are False").
Det skulle vara oärligt att hävda att dessa siffror betyder att Amp är bäst. Det är helt enkelt en för artificiell miljö och det finns för mycket slumpmässighet. Och jag tror inte att någon egentligen någonsin har valt en kodningsagent på grund av benchmarkresultat, än mindre 1:a parts rapporterade.
Men utvärderingar hjälper oss att göra Amp bättre. Du kan se från en rapport att Amp misslyckades med vissa fall varje gång, vilket vi kommer att undersöka. Och vi gör alla typer av smala utvärderingar, till exempel för vår sökunderagent[1].
OBS: Detta är inte menat som en grävning mot de Next.js evals /alls/. Det är ett fantastiskt eval-set överlag och tjänar sitt syfte att hjälpa oss att göra Amp bättre på Next.js saker.
[REDIGERAD]: Jag fick 50-58 % i mina första Amp-utvärderingar, och andra fick 48-76 %.


24,44K
Topp
Rankning
Favoriter

