الإعلان عن التحليل الاصطناعي لمنطق السياق الطويل (AA-LCR) ، وهو معيار جديد لتقييم أداء السياق الطويل من خلال اختبار قدرات التفكير عبر العديد من المستندات الطويلة (~ 100 ألف رمز مميز) ينصب تركيز AA-LCR على تكرار مهام العمل والتفكير المعرفي الحقيقي ، واختبار القدرة الحاسمة لتطبيقات الذكاء الاصطناعي الحديثة التي تشمل تحليل المستندات وفهم قاعدة التعليمات البرمجية ومهام سير العمل المعقدة متعددة الخطوات. AA-LCR عبارة عن 100 سؤال قائم على النص الثابت يتطلب التفكير عبر العديد من المستندات الواقعية التي تمثل ~ 100 ألف رمز إدخال. تم تصميم الأسئلة بحيث لا يمكن العثور على الإجابات مباشرة ولكن يجب أن تكون مسببة من مصادر معلومات متعددة ، مع التحقق من الاختبارات البشرية أن كل سؤال يتطلب استنتاجا حقيقيا بدلا من الاسترجاع. الوجبات الجاهزة الرئيسية: ➤ تحقق النماذج الرائدة اليوم دقة ~ 70٪: تذهب المراكز الثلاثة الأولى إلى OpenAI o3 (69٪) و xAI Grok 4 (68٪) و Qwen3 235B 2507 Thinking (67٪) ➤ 👀 لدينا بالفعل نتائج gpt-oss! يعمل 120B بالقرب من o4-mini (مرتفع) ، بما يتماشى مع ادعاءات OpenAI فيما يتعلق بأداء النموذج. سنتابع قريبا بمؤشر ذكاء للنماذج. ➤ 100 سؤال قائم على النص الثابت تغطي 7 فئات من المستندات (تقارير الشركة وتقارير الصناعة والاستشارات الحكومية والأوساط الأكاديمية والمواد القانونية والتسويقية وتقارير المسح) ➤ ~ 100 ألف رمز مميز من المدخلات لكل سؤال ، مما يتطلب من النماذج دعم نافذة سياق 128 كيلو بحد أدنى للتسجيل على هذا المعيار ➤ ~ 3 ملايين إجمالي رموز الإدخال الفريدة التي تمتد على ~ 230 مستندا لتشغيل المعيار (تختلف رموز الإخراج عادة حسب الطراز) ➤ رابط إلى مجموعة البيانات على 🤗 @HuggingFace أدناه نحن نضيف AA-LCR إلى مؤشر ذكاء التحليل الاصطناعي ، ونأخذ رقم الإصدار إلى الإصدار 2.2. يتضمن مؤشر ذكاء التحليل الاصطناعي v2.2 الآن: MMLU-Pro و GPQA Diamond و AIME 2025 و IFBench و LiveCodeBench و SciCode و AA-LCR. يتم تحديث جميع الأرقام على الموقع الآن. اكتشف النماذج التي فهرس ذكاء التحليل الاصطناعي v2.2 👇
‏‎28.55‏K