المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الإعلان عن التحليل الاصطناعي لمنطق السياق الطويل (AA-LCR) ، وهو معيار جديد لتقييم أداء السياق الطويل من خلال اختبار قدرات التفكير عبر العديد من المستندات الطويلة (~ 100 ألف رمز مميز)
ينصب تركيز AA-LCR على تكرار مهام العمل والتفكير المعرفي الحقيقي ، واختبار القدرة الحاسمة لتطبيقات الذكاء الاصطناعي الحديثة التي تشمل تحليل المستندات وفهم قاعدة التعليمات البرمجية ومهام سير العمل المعقدة متعددة الخطوات.
AA-LCR عبارة عن 100 سؤال قائم على النص الثابت يتطلب التفكير عبر العديد من المستندات الواقعية التي تمثل ~ 100 ألف رمز إدخال. تم تصميم الأسئلة بحيث لا يمكن العثور على الإجابات مباشرة ولكن يجب أن تكون مسببة من مصادر معلومات متعددة ، مع التحقق من الاختبارات البشرية أن كل سؤال يتطلب استنتاجا حقيقيا بدلا من الاسترجاع.
الوجبات الجاهزة الرئيسية:
➤ تحقق النماذج الرائدة اليوم دقة ~ 70٪: تذهب المراكز الثلاثة الأولى إلى OpenAI o3 (69٪) و xAI Grok 4 (68٪) و Qwen3 235B 2507 Thinking (67٪)
➤ 👀 لدينا بالفعل نتائج gpt-oss! يعمل 120B بالقرب من o4-mini (مرتفع) ، بما يتماشى مع ادعاءات OpenAI فيما يتعلق بأداء النموذج. سنتابع قريبا بمؤشر ذكاء للنماذج.
➤ 100 سؤال قائم على النص الثابت تغطي 7 فئات من المستندات (تقارير الشركة وتقارير الصناعة والاستشارات الحكومية والأوساط الأكاديمية والمواد القانونية والتسويقية وتقارير المسح)
➤ ~ 100 ألف رمز مميز من المدخلات لكل سؤال ، مما يتطلب من النماذج دعم نافذة سياق 128 كيلو بحد أدنى للتسجيل على هذا المعيار
➤ ~ 3 ملايين إجمالي رموز الإدخال الفريدة التي تمتد على ~ 230 مستندا لتشغيل المعيار (تختلف رموز الإخراج عادة حسب الطراز)
➤ رابط إلى مجموعة البيانات على 🤗 @HuggingFace أدناه
نحن نضيف AA-LCR إلى مؤشر ذكاء التحليل الاصطناعي ، ونأخذ رقم الإصدار إلى الإصدار 2.2. يتضمن مؤشر ذكاء التحليل الاصطناعي v2.2 الآن: MMLU-Pro و GPQA Diamond و AIME 2025 و IFBench و LiveCodeBench و SciCode و AA-LCR.
يتم تحديث جميع الأرقام على الموقع الآن. اكتشف النماذج التي فهرس ذكاء التحليل الاصطناعي v2.2 👇

28.55K
الأفضل
المُتصدِّرة
التطبيقات المفضلة