GPT-5 غير جاهز للعمل الوكيل للإنتاج. قد يكون كيمي. المزيد من الإيصالات (كما هو الحال مع أي محاسبة جيدة) ركض GPT-5 مع Opus 4.1 ، لكن الأمر استغرق وقتا طويلا انتهى بي الأمر بتشغيل 3 نماذج أثناء انتظار انتهاء GPT-5. الجري هنا مفرط لفظي بعض الشيء ، لذا فإن التعليق التوضيحي السريع: 1. اتباع التعليمات طلب منه "استخدام مساحة عمل TypeScript المتوفرة" من بين أمور أخرى -GPT-5: تم تجاهله لمدة 15 دقيقة ، وكتب 31 أمرا قذيفة أولا -Kimi: جرب TypeScript على الفور (فشل 3x في المسارات ولكن استمر في المحاولة) -Opus: TypeScript في الدقيقة 2 -سوناته: TypeScript في الدقيقة 7 2. معالجة الأخطاء -GPT-5: فشل الأمر 500 حرف → يتوسع إلى 2000+ حرف → لا يزال يفشل → يستمر في التوسع -Kimi: خطأ المسار 3x → يبسط أخيرا → يعمل -Opus: 95٪ يعملون لأول مرة -Sonnet: الأداة المفقودة → نهج المفاتيح → 3. النتائج الفريدة (عملنا الأساسي - يستحق المنشور الخاص به) -GPT-5: تغييرات المخطط (RIDRETH2→RIDRETH3) ، أنماط التسمية (لاحقة _J) -Kimi: التحقق الأساسي - SEQN موجودة ، 9966 مشاركا -سوناته: الصحة العقلية مخبأة في ملفات أخرى / ، 1.4 مليون صف - Opus: 86٪ تناثر مصمم ، نطاق أعمدة 2-323 4. أنتجت الكود -GPT-5: inventory.ts مع 2000+ char bash مدمج في الداخل -كيمي: simple_validate.ts - الحد الأدنى ولكنه يعمل -سوناته: comprehensive_analysis.ts - فصل نظيف -Opus: 3 ملفات معيارية - إطار عمل قابل للتوسيع 5. الموارد - كيمي: 14 دقيقة ، 1.59 دولار -سوناته: 6 دقائق ، 1.87 دولار -GPT-5: 27 دقيقة ، 5.04 دولار -Opus: 10 دقائق ، 10.46 دولار ومع ذلك ، أستطيع أن أرى أن GPT-5 يعرف الكثير من الحيل التقنية وممثلا قادرا جدا في خط الأساس - ولكنه يأتي بهامش خطأ مرتفع وخطر الانحراف عن النقطة (وهو ما فعلته عدة مرات مع هذه المهمة). قد أستخدمه لتصحيح الأخطاء السريع ، ولكن قاعدة بيانات ضخمة أو مهمة تحليل ، أفضل kimi مع العديد من حواجز الحماية كما نقف.
‏‎58.27‏K