Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
CEO y miembro del personal técnico @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,15K
Necesitamos a alguien que se una al equipo de Amp y nos ayude a construir la infraestructura de anuncios y los flujos de usuarios para Amp Free. 
Backend, frontend, enviando muchas veces al día y trabajando con clientes. Este puesto es solo para San Francisco. Mucho trabajo duro y ambigüedad. Envíame un DM.
21,18K
Las evaluaciones de agentes de codificación son útiles para mejorar tu agente, pero no para demostrar que es el mejor (sea lo que sea que eso signifique). Por eso no hablamos públicamente sobre las evaluaciones.
Pero mucha gente pregunta, así que aquí hay una explicación más larga de por qué no son significativas para la comparación entre agentes.
Anoche, por capricho, ejecuté las evaluaciones de Next.js[0] contra @AmpCode y obtuve [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, muy por encima del siguiente más alto (Claude Code) con un 42%.
Luego pedí a algunas otras personas que intentaran replicar estos resultados. Otras personas obtuvieron [REDACTED]% para Amp, algunos con un AGENTS𛲔md que decía lo siguiente:
> Al trabajar en un proyecto de Next.js, siempre ejecuta `npm exec tsc -b` para verificar errores de tipo, y luego `npm run build` y `npm run test`, antes de terminar. Corrige cualquier error que veas y prueba de nuevo hasta que no haya errores.
Al usar Claude Code con eso en el CLAUDE𛲔md, llegó hasta el 72% (subiendo desde el 40-42% sin).
Conclusiones:
• Un simple archivo AGENTS𛲔md aumenta masivamente la tasa de éxito (en la práctica ~todos los usuarios reales tienen uno, pero las evaluaciones rara vez proporcionan uno)
• Alta variabilidad entre ejecuciones (es especialmente difícil hacer que los agentes de codificación sean deterministas)
• Existen muchas oportunidades para otros tipos de deriva no intencionada (me pone nervioso que la mayoría de los resultados de Terminal Bench no estén validados de forma independiente, por ejemplo)
Además, con tantos conjuntos de evaluaciones diferentes ahora, solo escucharás las afirmaciones de los creadores de agentes sobre las evaluaciones en las que les va bien (p-hacking se encuentra con "Por qué la mayoría de los hallazgos de investigación publicados son falsos").
Sería deshonesto afirmar que estos números significan que Amp es el mejor. Es un entorno demasiado artificial y hay demasiada aleatoriedad. Y no creo que nadie haya elegido realmente un agente de codificación por los resultados de referencia, mucho menos por los reportados de primera mano.
Pero las evaluaciones nos ayudan a mejorar Amp. Puedes ver en un informe que Amp falló en ciertos casos cada vez, lo cual investigaremos. Y hacemos todo tipo de evaluaciones específicas, como para nuestro subagente de búsqueda[1].
NOTA: Esto no está destinado a ser un ataque contra las evaluaciones de Next.js /en absoluto/. Es un gran conjunto de evaluaciones en general y cumple su propósito de ayudarnos a mejorar Amp en cosas de Next.js.
[REDACTED]: Obtuve un 50-58% en mis evaluaciones iniciales de Amp, y otros obtuvieron un 48-76%.


24,33K
Parte superior
Clasificación
Favoritos

