Discuții aprofundate despre agenți, gpt-5 și evaluări ale modelelor 👇
Amp — Research Preview
Amp — Research PreviewCu 18 ore în urmă
Episodul 8 În acest episod, @beyang stă de vorbă cu @camden_cheek pentru a discuta despre modul în care echipa Amp evaluează noile modele: de ce apelarea instrumentelor este diferențiatorul cheie, cum se stivuiesc modelele deschise precum K2 și Qwen, ce schimbă GPT-5 și modul în care "verificările vibe" calitative contează adesea mai mult decât reperele. De asemenea, se scufundă în subagenți, aliaje model și cum arată viitorul codării agentice în interiorul Amp. Marcajele: 0:00 Introducere — De ce contează evaluarea modelului 1:06 Filozofia multi-model a amplificatorului 3:16 De ce Gemini Pro nu a rămas 4:55 Eșecuri de apelare a instrumentelor și întreruperea utilizatorilor 6:09 Decăderea iterației vs autocorecție 10:08 Modele deschise (K2, Qwen) 11:22 "Epoca 56k a agenților" 18:01 Primele impresii despre GPT-5 20:35 Modele de aliere și Oracle ca rezervă 24:26 Cum se simte GPT-5 diferit (personalitate și conducere) 29:10 Depășirea pragului de utilizare 38:13 De ce vibrațiile > benchmark-urile 44:18 Testarea regresiei și filozofia de evaluare 46:21 Câștigător unic de > viitor multi-model 52:38 Gânduri finale
2,14K