كيف يقارن GPT-5 ب Claude Opus 4.1 في المهام الوكيل؟ منذ إصدارها ، قمنا بتقييم هذه النماذج على مهام العلوم والويب والخدمة والتعليمات البرمجية الصعبة. نتيجة العنوان: على الرغم من فعاليتها من حيث التكلفة ، إلا أن GPT-5 حتى الآن لا يتصدر قوائم المتصدرين الوكلاء أبدا. المزيد من الإيفالات 🧵
فاجأتنا العديد من هذه النتائج ، ونحن نخطط للتحقيق فيها عن كثب. لكن الاتجاهات عبر هذه المعايير تؤكد أن GPT-5 ليس تغييرا خطوة، ولا يتحسن على نماذج OpenAI الأخرى. لكنها تتألق في المقايضات من حيث التكلفة والدقة - غالبا ما تأتي أرخص بكثير من الموديلات المماثلة.
‏‎56.63‏K