المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 غير جاهز للعمل الوكيل للإنتاج. قد يكون كيمي. المزيد من الإيصالات (كما هو الحال مع أي محاسبة جيدة)
ركض GPT-5 مع Opus 4.1 ، لكن الأمر استغرق وقتا طويلا انتهى بي الأمر بتشغيل 3 نماذج أثناء انتظار انتهاء GPT-5.
الجري هنا مفرط لفظي بعض الشيء ، لذا فإن التعليق التوضيحي السريع:
1. اتباع التعليمات
طلب منه "استخدام مساحة عمل TypeScript المتوفرة" من بين أمور أخرى
-GPT-5: تم تجاهله لمدة 15 دقيقة ، وكتب 31 أمرا قذيفة أولا
-Kimi: جرب TypeScript على الفور (فشل 3x في المسارات ولكن استمر في المحاولة)
-Opus: TypeScript في الدقيقة 2
-سوناته: TypeScript في الدقيقة 7
2. معالجة الأخطاء
-GPT-5: فشل الأمر 500 حرف → يتوسع إلى 2000+ حرف → لا يزال يفشل → يستمر في التوسع
-Kimi: خطأ المسار 3x → يبسط أخيرا → يعمل
-Opus: 95٪ يعملون لأول مرة
-Sonnet: الأداة المفقودة → نهج المفاتيح →
3. النتائج الفريدة (عملنا الأساسي - يستحق المنشور الخاص به)
-GPT-5: تغييرات المخطط (RIDRETH2→RIDRETH3) ، أنماط التسمية (لاحقة _J)
-Kimi: التحقق الأساسي - SEQN موجودة ، 9966 مشاركا
-سوناته: الصحة العقلية مخبأة في ملفات أخرى / ، 1.4 مليون صف
- Opus: 86٪ تناثر مصمم ، نطاق أعمدة 2-323
4. أنتجت الكود
-GPT-5: inventory.ts مع 2000+ char bash مدمج في الداخل
-كيمي: simple_validate.ts - الحد الأدنى ولكنه يعمل
-سوناته: comprehensive_analysis.ts - فصل نظيف
-Opus: 3 ملفات معيارية - إطار عمل قابل للتوسيع
5. الموارد
- كيمي: 14 دقيقة ، 1.59 دولار
-سوناته: 6 دقائق ، 1.87 دولار
-GPT-5: 27 دقيقة ، 5.04 دولار
-Opus: 10 دقائق ، 10.46 دولار
ومع ذلك ، أستطيع أن أرى أن GPT-5 يعرف الكثير من الحيل التقنية وممثلا قادرا جدا في خط الأساس - ولكنه يأتي بهامش خطأ مرتفع وخطر الانحراف عن النقطة (وهو ما فعلته عدة مرات مع هذه المهمة).
قد أستخدمه لتصحيح الأخطاء السريع ، ولكن قاعدة بيانات ضخمة أو مهمة تحليل ، أفضل kimi مع العديد من حواجز الحماية كما نقف.
58.27K
الأفضل
المُتصدِّرة
التطبيقات المفضلة