فتح ضخم للبنية التحتية من قبل المؤسس @_xjdr. XJDR عالم مجنون، لذا استغرق مني ذلك عدة مرات لأفهم هذا (وما زلت أعتقد أنني ربما لا أفهم الإمكانيات بالكامل) يقوم بإعادة كتابة مجموعة التدريب بالكامل لنماذج MoE الخاصة بمزيج الخبراء (وهي البنية المعمارية وراء DeepSeek) للباحثين ذوي الحوسبة المحدودة (أي العالم خارج الفائقين المقياس). عادة ما يتطلب تدريب هذه النماذج المتفرقة مجموعات ضخمة وهو غير مستقر للغاية. بنت XJDR مكدسة جديدة من الصفر لجعلها فعالة على عقدة واحدة فقط الإطار القياسي: يتطلب عناقيد ضخمة من وحدات معالجة الرسوميات (غالبا غير مستقرة) مكدس XJDR: توسع متوقع على وحدة معالجة رسومات واحدة إلى 8 عقد GPU. التفصيل هنا هو أنه بدلا من الاعتماد على الحوسبة اليدوية لتجاوز الأخطاء، حل الاختناقات الهندسية المحددة مثل انهيار الموجه لجعل التدريب الدقيق المختلط مستقرا على الأجهزة الصغيرة. كما أنشأ خط أنابيب بيانات متقدم حيث تقوم نماذج أوراكل 120 مليار بتقييم البيانات لضمان تعلم النماذج الصغيرة بشكل أسرع. ملخص: هو يفتح المصدر كامل مستودعات المصنع، وأدوات البيانات، والأوزان لديمقراطية قدرات البحث على مستوى جوجل للفرد. مبروك @_xjdr. نحن متحمسون للغاية لأن نكون جزءا صغيرا من رحلتك. من الآمن القول إنني متحمس جدا لمشاركتك عملك