Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

brexton
cofundador @tryoharaAI: crea aplicaciones con IA usando palabras. Compite para construir las mejores aplicaciones y ganar financiación. El software es contenido.
Para los clientes, las evaluaciones son, en el mejor de los casos, materiales de marketing
La forma en que se utilizan los agentes en la vida real y cómo medir mejor lo que importa es más complicada, incluso entre los diferentes subconjuntos de agentes de codificación (generalista, revisión de relaciones públicas, texto a aplicación)
He estado pensando en cómo se ve un "G2" en este mundo

Quinn Slack28 oct, 13:46
Las evaluaciones de los agentes de codificación son útiles para mejorar a su agente, pero no para demostrar que es el mejor (lo que sea que eso signifique). Es por eso que no hablamos públicamente de evaluaciones.
Pero mucha gente pregunta, así que aquí hay una explicación más larga de por qué no son significativos para la comparación de agente a agente.
Anoche, por capricho, corrí las evaluaciones Next.js [0] contra @AmpCode y obtuve [ELIMINADO; no quiero que se trate de números, pero desplácese hacia abajo si tiene curiosidad]%, muy por encima del siguiente más alto (Código Claude) con un 42%.
Luego le pedí a otras personas que intentaran replicar estos resultados. Otras personas obtuvieron [CENSURADO]% para Amp, algunos con un AGENTS𛲔md que decía lo siguiente:
> Cuando trabaje en un proyecto Next.js, ejecute siempre 'npm exec tsc -b' para comprobar si hay errores de tipo, y luego 'npm run build' y 'npm run test', antes de finalizar. Corrija los errores que vea e inténtelo de nuevo hasta que no haya errores.
Cuando se usó el código Claude con eso en el CLAUDE𛲔md, subió hasta el 72% (frente al 40-42% sin él).
Conclusiones:
• Un simple archivo AGENTS𛲔md aumenta enormemente la tasa de éxito (en la práctica ~ todos los usuarios reales tienen uno, pero las evaluaciones rara vez proporcionan uno)
• Alta variabilidad entre ejecuciones (es especialmente difícil hacer que los agentes de codificación sean deterministas)
• Existen muchas oportunidades para otros tipos de deriva involuntaria (me pone nervioso que la mayoría de los resultados de Terminal Bench no se validen de forma independiente, por ejemplo)
Además, con tantos conjuntos de evaluaciones diferentes disponibles ahora, solo escuchará las afirmaciones de los fabricantes de agentes sobre las evaluaciones en las que les va bien (p-hacking se encuentra con "Por qué la mayoría de los hallazgos de investigación publicados son falsos").
Sería deshonesto afirmar que estos números significan que Amp es el mejor. Es un entorno demasiado artificial y hay demasiada aleatoriedad. Y no creo que nadie haya elegido realmente un agente de codificación debido a los resultados de referencia, y mucho menos a los reportados por 1st-party.
Pero las evaluaciones nos ayudan a mejorar Amp. Puede ver en un informe que Amp falló en ciertos casos cada vez, lo cual analizaremos. Y hacemos todo tipo de evaluaciones estrechas, como para nuestro subagente de búsqueda[1].
NOTA: Esto no pretende ser una excavación contra las evaluaciones Next.js /en absoluto/. Es un gran conjunto de evaluación en general y cumple su propósito de ayudarnos a hacer que Amp sea mejor en Next.js cosas.
[ELIMINADO]: Obtuve un 50-58% en mis evaluaciones iniciales de Amp, y otros obtuvieron un 48-76%.


314
Populares
Ranking
Favoritas

