Criando a un agente - Episodio 8 En este episodio, @beyang se sienta con @camden_cheek para discutir cómo el equipo de Amp evalúa los nuevos modelos: por qué la llamada a herramientas es el diferenciador clave, cómo se comparan los modelos abiertos como K2 y Qwen, qué cambia GPT-5 y cómo las "verificaciones de vibración" cualitativas a menudo importan más que los puntos de referencia. También se sumergen en subagentes, aleaciones de modelos y cómo se ve el futuro de la codificación agencial dentro de Amp. Marcas de tiempo: 0:00 Introducción — Por qué es importante la evaluación del modelo 1:06 La filosofía multimodelo de Amp 3:16 Por qué Gemini Pro no se mantuvo 4:55 Fallos en las llamadas de herramientas e interrupción del usuario 6:09 Decaimiento de la iteración vs autocorrección 10:08 Bombo publicitario de los modelos abiertos (K2, Qwen) 11:22 La "era de los agentes de 56k" 18:01 Primeras impresiones de GPT-5 20:35 Modelos de aleación y Oracle como respaldo 24:26 Cómo GPT-5 se siente diferente (personalidad y dirección) 29:10 Cruzando el umbral de usabilidad 38:13 Por qué vibra > puntos de referencia 44:18 Pruebas de regresión y filosofía de evaluación 46:21 Futuro multimodelo > ganador único 52:38 Reflexiones finales
9.27K