من السخف أن OpenAI ادعى 74.9٪ على SWE-Bench فقط لإثبات أنهم كانوا أعلى من Opus 4.1 بنسبة 74.5٪ ... من خلال تشغيله على 477 مشكلة بدلا من 500 كاملة. بطاقة النظام الخاصة بهم تقول 74٪ فقط أيضا.
مصدر:
ونعم ، أعلم أنهم أبلغوا دائما عن المقام 477 ، ولكن هذا ليس "تم التحقق من SWE-Bench" ، فهذا مقياس مختلف تماما ، إنه "مجموعة فرعية من OpenAI من SWE Bench Verified " ولا يمكن مقارنة هذا الرقم
‏‎23.28‏K