Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
PDG et membre du personnel technique @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,21K
Nous avons besoin de quelqu'un pour rejoindre l'équipe Amp et nous aider à construire l'infrastructure publicitaire et les flux utilisateurs pour Amp Free.
Backend, frontend, expéditions plusieurs fois par jour, et travail avec les clients. Ce poste est uniquement à San Francisco. Beaucoup de travail acharné et d'ambiguïté. Envoyez-moi un message.
21,21K
Les évaluations des agents de codage sont utiles pour améliorer votre agent, mais pas pour prouver qu'il est le meilleur (quoi que cela signifie). C'est pourquoi nous ne parlons pas publiquement des évaluations.
Mais beaucoup de gens demandent, donc voici une explication plus longue sur pourquoi elles ne sont pas significatives pour la comparaison entre agents.
Hier soir, sur un coup de tête, j'ai exécuté les évaluations Next.js[0] contre @AmpCode et j'ai obtenu [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, bien au-dessus du suivant le plus élevé (Claude Code) à 42%.
J'ai ensuite demandé à d'autres personnes d'essayer de reproduire ces résultats. D'autres personnes ont obtenu [REDACTED]% pour Amp, certains avec un AGENTS𛲔md qui se lisait comme suit :
> Lorsqu'on travaille sur un projet Next.js, exécutez toujours `npm exec tsc -b` pour vérifier les erreurs de type, puis `npm run build` et `npm run test`, avant de terminer. Corrigez toutes les erreurs que vous voyez et réessayez jusqu'à ce qu'il n'y ait plus d'erreurs.
En utilisant Claude Code avec cela dans le CLAUDE𛲔md, il a atteint 72% (contre 40-42% sans).
Leçons à retenir :
• Un simple fichier AGENTS𛲔md augmente massivement le taux de réussite (en pratique, presque tous les utilisateurs réels en ont un, mais les évaluations en fournissent rarement un)
• Forte variabilité entre les exécutions (il est particulièrement difficile de rendre les agents de codage déterministes)
• Il existe tant d'opportunités pour d'autres types de dérives involontaires (cela me rend nerveux que la plupart des résultats de Terminal Bench ne soient pas validés indépendamment, par exemple)
De plus, avec tant de différents ensembles d'évaluations disponibles maintenant, vous n'entendrez que les affirmations des créateurs d'agents pour les évaluations sur lesquelles ils réussissent bien (p-hacking rencontre "Pourquoi la plupart des résultats de recherche publiés sont faux").
Il serait malhonnête de prétendre que ces chiffres signifient qu'Amp est le meilleur. C'est juste trop artificiel comme environnement et il y a trop de hasard. Et je ne pense pas que quiconque ait vraiment choisi un agent de codage à cause des résultats de référence, encore moins ceux rapportés par la première partie.
Mais les évaluations nous aident à améliorer Amp. Vous pouvez voir d'un rapport qu'Amp a échoué à certains cas à chaque fois, ce que nous allons examiner. Et nous faisons toutes sortes d'évaluations étroites, comme pour notre sous-agent de recherche[1].
NOTE : Ceci n'est pas censé être une critique des évaluations Next.js /du tout/. C'est un excellent ensemble d'évaluations dans l'ensemble et sert son but pour nous aider à améliorer Amp sur les choses Next.js.
[REDACTED] : J'ai obtenu 50-58% dans mes évaluations initiales d'Amp, et d'autres ont obtenu 48-76%.


24,45K
Meilleurs
Classement
Favoris

