أداء GPT-OSS ضعيف حتى في المعايير التي تتطلب استدعاء الأدوات الأولية. على سبيل المثال ، يتطلب CORE-Bench من الوكلاء تشغيل أوامر bash لإعادة إنتاج الأوراق العلمية. يسجل DeepSeek V3 18٪. يسجل GPT-OSS 11٪.
Nathan Lambert
Nathan Lambert‏12 أغسطس، 23:44
GPT-OSS هو محرك معالجة / تفكير الأدوات فقط. نوع من النموذج المفتوح الصعب للاستخدام. سيكون الجر IMO محدودا. أفضل طريقة للحصول على الجر هي إصدار نماذج مرنة وسهلة الاستخدام بدون أدوات وموثوقة. بعد ذلك ، نماذج مثيرة للاهتمام مخصصة مثل استخدام الأداة لاحقا
‏‎6.09‏K