Discussão aprofundada sobre agentes, gpt-5 e avaliações de modelos 👇
Amp — Research Preview
Amp — Research PreviewHá 18 horas
Levantando Um Agente - Episódio 8 Neste episódio, @beyang senta-se com @camden_cheek para discutir como a equipe do Amp avalia novos modelos: por que a chamada de ferramentas é o principal diferenciador, como modelos abertos como K2 e Qwen se comparam, quais são as mudanças do GPT-5 e como "vibe checks" qualitativos muitas vezes importam mais do que benchmarks. Eles também mergulham em subagentes, ligas de modelos e como será o futuro da codificação agentica dentro do Amp. Marcos de tempo: 0:00 Introdução — Por que a avaliação de modelos importa 1:06 Filosofia multi-modelo do Amp 3:16 Por que o Gemini Pro não se firmou 4:55 Falhas na chamada de ferramentas & interrupção do usuário 6:09 Decaimento de iteração vs autocorreção 10:08 Hype de modelos abertos (K2, Qwen) 11:22 A "era 56k dos agentes" 18:01 Primeiras impressões do GPT-5 20:35 Ligações de modelos & Oracle como fallback 24:26 Como o GPT-5 se sente diferente (personalidade & direcionabilidade) 29:10 Atravessando o limiar de usabilidade 38:13 Por que vibes > benchmarks 44:18 Testes de regressão & filosofia de avaliação 46:21 Futuro multi-modelo > único vencedor 52:38 Pensamentos finais
2,14K