تربية وكيل - الحلقة 8 في هذه الحلقة ، يجلس @beyang مع @camden_cheek لمناقشة كيفية تقييم فريق Amp للنماذج الجديدة: لماذا يعتبر استدعاء الأدوات هو العامل الرئيسي ، وكيف تتراكم النماذج المفتوحة مثل K2 و Qwen ، وما الذي يتغير GPT-5 ، وكيف غالبا ما تكون "فحوصات المعاشة" النوعية أكثر أهمية من المعايير. كما أنها تغوص في العوامل الفرعية ، والسبائك النموذجية ، وكيف يبدو مستقبل الترميز الوكيل داخل Amp. الطوابع الزمنية: 0:00 مقدمة - لماذا التقييم النموذجي مهم 1:06 فلسفة أمبير متعددة النماذج 3:16 لماذا لم يلتصق Gemini Pro 4:55 فشل استدعاء الأدوات وتعطيل المستخدم 6:09 اضمحلال التكرار مقابل التصحيح الذاتي 10:08 عرض النماذج المفتوحة الضجيج (K2 ، Qwen) 11:22 "عصر 56 ألفا من الوكلاء" 18:01 الانطباعات الأولى عن GPT-5 20:35 نماذج صناعة السبائك و Oracle كاحتياطي 24:26 كيف يشعر GPT-5 بالاختلاف (الشخصية وقابلية التوجيه) 29:10 تجاوز عتبة قابلية الاستخدام 38:13 لماذا المشاعر > المعايير 44:18 اختبار الانحدار وفلسفة التقييم 46:21 فائز فردي > المستقبل متعدد النماذج 52:38 افكار اخيرة
‏‎9.27‏K