Membesarkan Agen - Episode 8 Dalam episode ini, @beyang duduk bersama @camden_cheek untuk membahas bagaimana tim Amp mengevaluasi model baru: mengapa pemanggilan alat adalah pembeda utama, bagaimana model terbuka seperti K2 dan Qwen menumpuk, apa yang diubah GPT-5, dan bagaimana "pemeriksaan getaran" kualitatif seringkali lebih penting daripada tolok ukur. Mereka juga menyelami subagen, paduan model, dan seperti apa masa depan pengkodean agen di dalam Amp. Stempel waktu: 0:00 Intro — Mengapa eval model penting 1:06 Filosofi multi-model Amp 3:16 Mengapa Gemini Pro tidak menempel 4:55 Kegagalan panggilan alat & gangguan pengguna 6:09 Peluruhan iterasi vs koreksi diri 10:08 Hype model terbuka (K2, Qwen) 11:22 "Era 56k agen" 18:01 Kesan pertama GPT-5 20:35 Model paduan & Oracle sebagai penggantian 24:26 Bagaimana GPT-5 terasa berbeda (kepribadian & kemampuan kemudi) 29:10 Melintasi ambang batas kegunaan 38:13 Mengapa getaran > tolok ukur 44:18 Pengujian regresi & filosofi evasi 46:21 Multi-model masa depan > pemenang tunggal 52:38 Kesimpulan
12,19K