Criando um Agente - Episódio 8 Neste episódio, @beyang se senta com @camden_cheek para discutir como a equipe do Amp avalia novos modelos: por que a chamada de ferramentas é o principal diferencial, como modelos abertos como K2 e Qwen se comparam, o que o GPT-5 muda e como as "verificações de vibração" qualitativas geralmente importam mais do que os benchmarks. Eles também mergulham em subagentes, ligas de modelo e como é o futuro da codificação agêntica dentro do Amp. Timestamps: 0:00 Introdução — Por que a avaliação do modelo é importante 1:06 Filosofia multi-modelo da Amp 3:16 Por que o Gemini Pro não pegou 4:55 Falhas na chamada de ferramentas e interrupção do usuário 6:09 Decadência de iteração vs autocorreção 10:08 Hype de modelos abertos (K2, Qwen) 11:22 A "era 56k dos agentes" 18:01 Primeiras impressões do GPT-5 20:35 Modelos de liga e Oracle como fallback 24:26 Como o GPT-5 se sente diferente (personalidade e dirigibilidade) 29:10 Cruzando o limite de usabilidade 38:13 Por que as vibrações > benchmarks 44:18 Teste de regressão e filosofia de avaliação 46:21 Multi-modelo futuro > vencedor individual 52:38 Considerações finais
9,26K