Discusión profunda sobre agentes, gpt-5 y evaluaciones de modelos 👇
Amp — Research Preview
Amp — Research PreviewHace 20 horas
Raising An Agent - Episodio 8 En este episodio, @beyang se sienta con @camden_cheek para discutir cómo el equipo de Amp evalúa nuevos modelos: por qué la llamada a herramientas es el diferenciador clave, cómo se comparan modelos abiertos como K2 y Qwen, qué cambios trae GPT-5 y cómo los "vibe checks" cualitativos a menudo importan más que los benchmarks. También profundizan en subagentes, aleaciones de modelos y cómo se ve el futuro de la codificación agentica dentro de Amp. Tiempos: 0:00 Introducción — Por qué importa la evaluación de modelos 1:06 La filosofía de múltiples modelos de Amp 3:16 Por qué Gemini Pro no tuvo éxito 4:55 Fallos en la llamada a herramientas y disrupción del usuario 6:09 Decaimiento de iteraciones vs autocorrección 10:08 Hype de modelos abiertos (K2, Qwen) 11:22 La "era de 56k de los agentes" 18:01 Primeras impresiones de GPT-5 20:35 Aleación de modelos y Oracle como respaldo 24:26 Cómo se siente diferente GPT-5 (personalidad y capacidad de dirección) 29:10 Cruzando el umbral de usabilidad 38:13 Por qué las vibras > benchmarks 44:18 Pruebas de regresión y filosofía de evaluación 46:21 Futuro de múltiples modelos > único ganador 52:38 Pensamientos finales
2,34K