المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
تحليل مستقل لنماذج الذكاء الاصطناعي وموفري الاستضافة - اختر أفضل نموذج ومزود واجهة برمجة تطبيقات لحالة الاستخدام الخاصة بك
تطلق DeepSeek V3.1 ، وتوحيد V3 و R1 في نموذج تفكير هجين مع زيادة تدريجية في الذكاء
زيادة الذكاء التدريجي: تظهر نتائج القياس الأولية ل DeepSeek V3.1 مؤشر ذكاء التحليل الاصطناعي البالغ 60 في وضع التفكير ، ارتفاعا من درجة R1 البالغة 59. في الوضع غير المنطقي ، يحقق V3.1 درجة 49 ، وهي زيادة أكبر عن درجة V3 0324 السابقة البالغة 44. هذا يترك V3.1 (المنطق) وراء أحدث Qwen3 235B 2507 من Alibaba (المنطق) - لم يستعيد DeepSeek الصدارة.
التفكير الهجين: انتقل @deepseek_ai إلى نموذج التفكير الهجين لأول مرة - يدعم كلا من أوضاع التفكير وغير المنطقي. يحاكي انتقال DeepSeek إلى نموذج التفكير الهجين الموحد النهج الذي اتبعه OpenAI و Anthropic و Google. ومع ذلك ، من المثير للاهتمام أن نلاحظ أن Alibaba تخلت مؤخرا عن نهجها الهجين الذي فضلوه ل Qwen3 من خلال إصداراتها المنفصلة من نماذج التفكير وتوجيه Qwen3 2507.
استدعاء الوظيفة / استخدام الأداة: بينما يدعي DeepSeek تحسين استدعاء الوظيفة للنموذج ، لا يدعم DeepSeek V3.1 استدعاء الوظيفة عندما يكون في وضع التفكير. من المحتمل أن يحد هذا بشكل كبير من قدرته على دعم مهام سير العمل الوكيلة مع متطلبات الاستخبارات، بما في ذلك وكلاء الترميز.
استخدام الرمز المميز: يسجل DeepSeek V3.1 درجات أعلى بشكل متزايد في وضع التفكير من DeepSeek R1 ، ويستخدم عددا أقل قليلا من الرموز المميزة عبر الرموز التي نستخدمها لمؤشر ذكاء التحليل الاصطناعي. في الوضع غير المنطقي ، يستخدم رمزا أكثر قليلا من V3 0324 - ولكن لا يزال أقل بعدة مرات مما كان عليه في وضع التفكير الخاص به.
واجهة برمجة التطبيقات: تخدم واجهة برمجة تطبيقات الطرف الأول من DeepSeek الآن نموذج DeepSeek V3.1 الجديد على كل من نقاط نهاية الدردشة والتفكير - ببساطة تغيير ما إذا كان الرمز المميز للتفكير النهائي </think> قد تم توفيره للنموذج في قالب الدردشة للتحكم في ما إذا كان النموذج سيتفكير.
الهندسة المعمارية: DeepSeek V3.1 مطابق من الناحية المعمارية لطرازات V3 و R1 السابقة ، مع معلمات إجمالية تبلغ 671B و 37B معلمات نشطة.
الآثار: ننصح بتوخي الحذر عند وضع أي افتراضات حول ما يعنيه هذا الإصدار حول تقدم DeepSeek نحو نموذج مستقبلي يشار إليه في الشائعات باسم V4 أو R2. نلاحظ أن DeepSeek أصدرت سابقا النموذج النهائي المبني على بنية V2 الخاصة بها في 10 ديسمبر 2024 ، قبل أسبوعين فقط من إطلاق V3.


71.18K
الإعلان عن التحليل الاصطناعي لمنطق السياق الطويل (AA-LCR) ، وهو معيار جديد لتقييم أداء السياق الطويل من خلال اختبار قدرات التفكير عبر العديد من المستندات الطويلة (~ 100 ألف رمز مميز)
ينصب تركيز AA-LCR على تكرار مهام العمل والتفكير المعرفي الحقيقي ، واختبار القدرة الحاسمة لتطبيقات الذكاء الاصطناعي الحديثة التي تشمل تحليل المستندات وفهم قاعدة التعليمات البرمجية ومهام سير العمل المعقدة متعددة الخطوات.
AA-LCR عبارة عن 100 سؤال قائم على النص الثابت يتطلب التفكير عبر العديد من المستندات الواقعية التي تمثل ~ 100 ألف رمز إدخال. تم تصميم الأسئلة بحيث لا يمكن العثور على الإجابات مباشرة ولكن يجب أن تكون مسببة من مصادر معلومات متعددة ، مع التحقق من الاختبارات البشرية أن كل سؤال يتطلب استنتاجا حقيقيا بدلا من الاسترجاع.
الوجبات الجاهزة الرئيسية:
➤ تحقق النماذج الرائدة اليوم دقة ~ 70٪: تذهب المراكز الثلاثة الأولى إلى OpenAI o3 (69٪) و xAI Grok 4 (68٪) و Qwen3 235B 2507 Thinking (67٪)
➤ 👀 لدينا بالفعل نتائج gpt-oss! يعمل 120B بالقرب من o4-mini (مرتفع) ، بما يتماشى مع ادعاءات OpenAI فيما يتعلق بأداء النموذج. سنتابع قريبا بمؤشر ذكاء للنماذج.
➤ 100 سؤال قائم على النص الثابت تغطي 7 فئات من المستندات (تقارير الشركة وتقارير الصناعة والاستشارات الحكومية والأوساط الأكاديمية والمواد القانونية والتسويقية وتقارير المسح)
➤ ~ 100 ألف رمز مميز من المدخلات لكل سؤال ، مما يتطلب من النماذج دعم نافذة سياق 128 كيلو بحد أدنى للتسجيل على هذا المعيار
➤ ~ 3 ملايين إجمالي رموز الإدخال الفريدة التي تمتد على ~ 230 مستندا لتشغيل المعيار (تختلف رموز الإخراج عادة حسب الطراز)
➤ رابط إلى مجموعة البيانات على 🤗 @HuggingFace أدناه
نحن نضيف AA-LCR إلى مؤشر ذكاء التحليل الاصطناعي ، ونأخذ رقم الإصدار إلى الإصدار 2.2. يتضمن مؤشر ذكاء التحليل الاصطناعي v2.2 الآن: MMLU-Pro و GPQA Diamond و AIME 2025 و IFBench و LiveCodeBench و SciCode و AA-LCR.
يتم تحديث جميع الأرقام على الموقع الآن. اكتشف النماذج التي فهرس ذكاء التحليل الاصطناعي v2.2 👇

28.91K
أثبتت Cerebras قدرتها على استضافة MoEs كبيرة بسرعات عالية جدا هذا الأسبوع ، حيث أطلقت نقاط نهاية Qwen3 235B 2507 و Qwen3 Coder 480B ب >1,500 رمز / ثانية إخراج
➤ تقدم @CerebrasSystems الآن نقاط نهاية لكل من Qwen3 235B 2507 Reasoning and Non-reasoning. يحتوي كلا الطرازين على معلمات إجمالية تبلغ 235 ب مع 22 ب نشطة.
➤ Qwen 3 235B 2507 يقدم المنطق ذكاء مماثلا ل o4-mini (عالية) و DeepSeek R1 0528. يوفر المتغير غير المنطقي ذكاء مشابها ل Kimi K2 وأعلى بكثير من GPT-4.1 و Llama 4 Maverick.
➤ يحتوي Qwen3 Coder 480B على معلمات إجمالية تبلغ 480B مع 35B نشطة. هذا النموذج قوي بشكل خاص للترميز الوكيل ويمكن استخدامه في مجموعة متنوعة من أدوات عامل الترميز ، بما في ذلك Qwen3-Coder CLI.
تمثل عمليات إطلاق Cerebras المرة الأولى التي يتم فيها الوصول إلى هذا المستوى من الذكاء بسرعات الإخراج هذه ولديها القدرة على فتح حالات استخدام جديدة - مثل استخدام نموذج التفكير لكل خطوة من خطوات الوكيل دون الحاجة إلى الانتظار دقائق.

25.35K
الأفضل
المُتصدِّرة
التطبيقات المفضلة