عندما يتعلق الأمر بالتدريب الموزع الذكاء الاصطناعي ، وجدت أن الأشخاص في دائرة web2AI سيصنفونه على أنه "اقتراح خاطئ" ، على أساس أنه يمكن تجميع أجهزة طاقة الحوسبة ، ولكن هناك تكاليف رهيبة للعرض الترددي للتعاون الموزع والفعال؟ @0G_labs نشرت مؤخرا ورقة DiLoCox ، يبدو أن الهدف هو حل هذه المشكلة؟ دعنا نتحدث عنها بالتفصيل: 1) دعنا نتحدث عن سبب اعتبار التدريب الموزع "اقتراحا خاطئا". التناقض الأساسي بسيط: تريد استبدال 100 A100 بتجميع 100 وحدة معالجة رسومات رخيصة ، والتي يبدو أنها توفر 90٪ من تكلفة الأجهزة ، ولكن يجب تدريب وحدات معالجة الرسومات ال 100 هذه بشكل متزامن ، ويجب على كل حقبة تبادل تيرابايت من بيانات التدرج. تتطلب الحلول التقليدية 100 جيجابت في الثانية من عرض النطاق الترددي المخصص للخط ، بينما يمكن أن يكلف الوصول إلى شبكة على مستوى مركز البيانات بسرعة 100 جيجابت في الثانية مئات الآلاف من الدولارات شهريا. في المجموع ، يتم إنفاق كل أموال GPU التي توفرها على النطاق الترددي ، وحتى رأسا على عقب. وفقا لهذا المنطق ، فإن توفير تكلفة الجهاز مع تكبد تكاليف عرض النطاق الترددي الإضافية لا يعني أن المشكلة لم يتم حلها؟ لذلك ، فإن جوهر التعرض للانتقاد باعتباره اقتراحا خاطئا كان دائما هنا. 2) جذبت ورقة DiLoCoX من 0G الانتباه لأنهم زعموا أنهم يدربون نموذج معلمة 107B على شبكة 1 جيجابت في الثانية (عرض النطاق الترددي العادي للمكتب) ، وهو أسرع 357 مرة من مخطط AllReduce التقليدي. هذا الرقم متفجر حقا - كما تعلم ، 1 جيجابت في الثانية مقابل 100 جيجابت في الثانية ، فرق النطاق الترددي هو 100 مرة ، لكن سرعة التدريب أسرع 357 مرة؟ كيف افعلها؟ بعد دراسة تقريبية ، وجد أن هذه المجموعة من المخططات قد أجرت أربعة تحسينات: يقسم التوازي في خط الأنابيب النموذج إلى شرائح. نهج المحسن المزدوج يقلل من تكرار المزامنة مع سياسات المحسن المزدوج ؛ يسمح تداخل التأخير بخطوة واحدة للاتصال والحوسبة بالعمل بالتوازي دون انتظار بعضهما البعض. يعمل ضغط التدرج التكيفي على ضغط التدرجات بذكاء. من منظور الشخص العادي ، هو تغيير "التزامن القوي في الوقت الفعلي" الأصلي المطلوب إلى "التزامن الضعيف غير المتزامن" ، وتغيير "نقل البيانات الكاملة" إلى "الإرسال التدريجي المضغوط". على سبيل المثال ، في حين أن الحلول التقليدية تشبه مؤتمرات الفيديو في الوقت الفعلي ل 100 شخص ، حيث يتم بث كل إجراء لكل شخص في وقت واحد ، فإن DiLoCoX يشبه كل شخص يسجل بشكل منفصل ثم يرسل فقط الإطارات الرئيسية والتغييرات. انخفض حجم حركة المرور بمقدار 100 مرة ، لكن سلامة المعلومات ظلت أعلى من 99٪. لماذا هذا ممكن؟ في رأيي ، الجوهر هو أنهم يلتقطون ميزة تدريب الذكاء الاصطناعي - التسامح مع الخطأ. تدريب نموذج ليس مثل تحويل المعاملات ، وهو ليس فلسا واحدا. تحديث التدرج خاطئ بعض الشيء ، وتتأخر المزامنة ، وتأثير تقارب النموذج النهائي له تأثير ضئيل. يستخدم DiLoCoX "مساحة تحمل الخطأ" هذه لتبادل خسائر الدقة المقبولة بمكاسب كفاءة الأوامر من حيث الحجم. هذا هو التفكير الهندسي النموذجي - وليس السعي لتحقيق الكمال ، والسعي لتحقيق أفضل أداء من حيث التكلفة. 3) لكن هذا لا يكفي لحل مشكلة النطاق الترددي ، فمن الواضح أن 0G أكثر طموحا. ما عليك سوى إلقاء نظرة على بنيتها العامة: لديهم أيضا طبقة تخزين تبلغ 10 دولارات / تيرابايت تدعي مباشرة أنها تسحق Filecoin ، وطبقة DA مصممة لنظام الذكاء الاصطناعي لتحقيق إنتاجية على مستوى GB. السبب في أن التصميم يمكن أن يحقق تخزينا أرخص 100 مرة هو بصراحة ، فهو أيضا تحسين خاص لسيناريوهات تدريب الذكاء الاصطناعي ، على سبيل المثال ، دورة حياة نقاط التفتيش والسجلات التي تم إنشاؤها أثناء عملية التدريب هي بضعة أيام فقط ، في الواقع ، ليست هناك حاجة لتحقيق "التخزين الدائم" بشكل صارم. لذلك ، في الواقع ، تم اعتماد الحل العملي ل "التخزين المتدرج" ، ويتم توفير المستوى المقابل فقط من الخدمة عند الحاجة - تتم قراءة البيانات الساخنة وكتابتها بسرعة ولكنها أكثر تكلفة ، والبيانات الباردة أرخص ولكنها أبطأ ، والبيانات المؤقتة هي الأرخص للحذف عند استخدامها. وهذا التسعير المتباين هو الذي يصيب بشكل مباشر النقاط الرئيسية للتدريب على الذكاء الاصطناعي. فوق. يمكن ملاحظة أن 0G Labs قد قامت عن قصد بتكييف الذكاء الاصطناعي مع مشاكل قوة الحوسبة والتخزين وتداول البيانات في عملية التدريب على الذكاء الاصطناعي. حتى آلية الإجماع قد تم تحسينها من أجل الذكاء الاصطناعي. يتم استخدام الإصدار المحسن من CometBFT مع 2500+ TPS مع نهائية دون الثانية ، والتي تم ضبطها خصيصا للخصائص غير المتزامنة لأحمال عمل الذكاء الاصطناعي ، وما إلى ذلك. بمعنى آخر ، بدلا من "تصحيح" الذكاء الاصطناعي على سلاسل الكتل الحالية ، صممت 0G بنية تحتية "الذكاء الاصطناعي الأصلي" من البداية. أما بالنسبة لما إذا كان بإمكانه أخيرا الحصول على التحقق التجاري على مستوى التطبيق تحت ضغط المنافسة مع الذكاء الاصطناعي التقليدي ، يبقى أن نرى ، لكن هذه الفكرة المتقدمة المتمايزة تستحق التعلم منها.
‏‎4.95‏K