نقدم لكم Parallax ، أول محرك استدلال وخدمة موزع بالكامل لنماذج اللغات الكبيرة. جربه الآن: 🧵
الذكاء الاصطناعي يصل إلى عنق الزجاجة. تعيد LLMs تشكيل طريقة تفكيرنا وبناءنا وإبداعنا ، لكن طلبها على الرموز يفوق ما يمكن أن تقدمه البنية التحتية المركزية. رقائق مشبعة. شبكات الكهرباء متوترة. لا تزال الاستخبارات محبوسة خلف صوامع عالية التكلفة. نحن بحاجة إلى نموذج جديد.
يعيد Parallax تصور استدلال النموذج كعملية تعاونية عالمية ، حيث لم تعد النماذج مرتبطة بالبنية التحتية المركزية ، ولكن بدلا من ذلك يتم إعادة تكوينها وتنفيذها والتحقق منها عبر شبكة عالمية من الحوسبة.
يقدم المحرك 3 تحولات أساسية: - السيادة الاستخباراتية: تخدم النماذج من الأجهزة التي تثق بها - الاستدلال القابل للتكوين: وحدات معالجة الرسومات ، Apple Silicon ، أجهزة الكمبيوتر المكتبية التي تعمل في وئام - الحوسبة الكامنة: تنشيطه في الحوسبة غير المستغلة في العالم
طبقة وقت تشغيل المنظر هي محرك التنسيق الأساسي لنظام LLM عالي الإنتاجية من جانب الخادم الذي يخدم عبر الشبكات الموزعة وغير المتجانسة. إنه يوفر تحسينات على مستوى الخادم - من التجميع المستمر إلى ذاكرة التخزين المؤقت KV المجزأة إلى الصفحات - وهو أول إطار عمل قائم على MLX لتمكين الاستدلال الاحترافي على Apple Silicon. من خلال توحيد وحدات معالجة الرسومات NVIDIA وأجهزة Apple في نسيج حساب واحد ، يوفر Parallax الذكاء الاصطناعي اللامركزي اللامركزي غير الاحتكاكي للجميع.
يعمل Parallax على بنية موزعة تسمى Swarm: شبكة ديناميكية من العقد التي تخدم بشكل تعاوني LLMs. تتم معالجة كل مطالبة عبر عقد غير متجانسة، حيث يتعامل كل منها مع جزء من النموذج. النتيجة: استدلال في الوقت الفعلي لامركزي وسلس ويمكن التحقق منه.
مقارنة ب Petals (خدمة على غرار BitTorrent) ، حقق Parallax الذي يعمل بتشغيل Qwen2.5-72B على 2× RTX 5090s: - 3.1× زمن انتقال أقل من طرف إلى طرف ، 5.3× زمن انتقال أسرع بين الرموز - 2.9× أسرع وقت للرمز المميز الأول ، 3.1× إنتاجية إدخال / إخراج أعلى كانت النتائج متسقة وأظهرت قابلية توسع كبيرة عبر تكوينات الإدخال المختلفة ، وهذه مجرد البداية.
يعيش الآن: روبوت محادثة مدعوم بالكامل من Parallax. يتم إنشاء كل استجابة من نظير إلى نظير دون وجود خادم مركزي. تجربة الاستدلال اللامركزي في LLM:
السرب ينمو. تقدم بطلب للانضمام إلى برنامج Edge Host Pilot لتوسيع نطاق ذكاء العالم:
‏‎67.97‏K