Las evaluaciones de agentes de codificación son útiles para mejorar tu agente, pero no para demostrar que es el mejor (sea lo que sea que eso signifique). Por eso no hablamos públicamente sobre las evaluaciones. Pero mucha gente pregunta, así que aquí hay una explicación más larga de por qué no son significativas para la comparación entre agentes. Anoche, por capricho, ejecuté las evaluaciones de Next.js[0] contra @AmpCode y obtuve [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, muy por encima del siguiente más alto (Claude Code) con un 42%. Luego pedí a algunas otras personas que intentaran replicar estos resultados. Otras personas obtuvieron [REDACTED]% para Amp, algunos con un AGENTS𛲔md que decía lo siguiente: > Al trabajar en un proyecto de Next.js, siempre ejecuta `npm exec tsc -b` para verificar errores de tipo, y luego `npm run build` y `npm run test`, antes de terminar. Corrige cualquier error que veas y prueba de nuevo hasta que no haya errores. Al usar Claude Code con eso en el CLAUDE𛲔md, llegó hasta el 72% (subiendo desde el 40-42% sin). Conclusiones: • Un simple archivo AGENTS𛲔md aumenta masivamente la tasa de éxito (en la práctica ~todos los usuarios reales tienen uno, pero las evaluaciones rara vez proporcionan uno) • Alta variabilidad entre ejecuciones (es especialmente difícil hacer que los agentes de codificación sean deterministas) • Existen muchas oportunidades para otros tipos de deriva no intencionada (me pone nervioso que la mayoría de los resultados de Terminal Bench no estén validados de forma independiente, por ejemplo) Además, con tantos conjuntos de evaluaciones diferentes ahora, solo escucharás las afirmaciones de los creadores de agentes sobre las evaluaciones en las que les va bien (p-hacking se encuentra con "Por qué la mayoría de los hallazgos de investigación publicados son falsos"). Sería deshonesto afirmar que estos números significan que Amp es el mejor. Es un entorno demasiado artificial y hay demasiada aleatoriedad. Y no creo que nadie haya elegido realmente un agente de codificación por los resultados de referencia, mucho menos por los reportados de primera mano. Pero las evaluaciones nos ayudan a mejorar Amp. Puedes ver en un informe que Amp falló en ciertos casos cada vez, lo cual investigaremos. Y hacemos todo tipo de evaluaciones específicas, como para nuestro subagente de búsqueda[1]. NOTA: Esto no está destinado a ser un ataque contra las evaluaciones de Next.js /en absoluto/. Es un gran conjunto de evaluaciones en general y cumple su propósito de ayudarnos a mejorar Amp en cosas de Next.js. [REDACTED]: Obtuve un 50-58% en mis evaluaciones iniciales de Amp, y otros obtuvieron un 48-76%.