Discussione approfondita su agenti, gpt-5 e valutazioni dei modelli 👇
Amp — Research Preview
Amp — Research Preview18 ore fa
Raising An Agent - Episodio 8 In questo episodio, @beyang si siede con @camden_cheek per discutere di come il team di Amp valuta i nuovi modelli: perché la chiamata agli strumenti è il fattore chiave di differenziazione, come si confrontano modelli aperti come K2 e Qwen, quali sono le novità di GPT-5 e come i "vibe checks" qualitativi spesso contano più dei benchmark. Si approfondiscono anche i subagenti, le leghe di modelli e quale sarà il futuro della programmazione agentica all'interno di Amp. Timestamp: 0:00 Introduzione — Perché la valutazione dei modelli è importante 1:06 La filosofia multi-modello di Amp 3:16 Perché Gemini Pro non ha avuto successo 4:55 Fallimenti nella chiamata agli strumenti e interruzione degli utenti 6:09 Decadenza dell'iterazione vs autocorrezione 10:08 Hype dei modelli aperti (K2, Qwen) 11:22 L'era dei "56k agents" 18:01 Prime impressioni su GPT-5 20:35 Legare modelli e Oracle come fallback 24:26 Come GPT-5 si sente diverso (personalità e guidabilità) 29:10 Superare la soglia di usabilità 38:13 Perché le vibrazioni > benchmark 44:18 Test di regressione e filosofia di valutazione 46:21 Futuro multi-modello > vincitore singolo 52:38 Pensieri finali
2,14K