# لماذا تدريب MoEs صعب جدا مؤخرا، وجدت أرغب في مستودع تدريب صغير يركز على البحث يمكنني إجراء تجارب صغيرة عليها بسرعة وسهولة. تتنوع هذه التجارب من تجربة بنى جديدة للانتباه (MLA، SWA، NSA، KDA - جميعها قابلة للتوصيل) إلى التدريب متعدد الدقة إلى معظم الناس مؤخرا تم إعداد المحسينات المتعددة مع محسولات 'جديدة'. جربت الثلاثة الرئيسيات المتنافسون (نيمو، ميجاترون وتورشتيتان) لكن لأسباب عديدة ومختلفة لم تكن مناسبة جدا لأغراضي وكانت كلها مؤلمة جدا قم بالإعداد، واستخدامه، وابدأ العمل بشكل مستقر. مرة أخرى فاتني أدوياتي من جوجل وإعادة كتابة مجموعة تدريب الإنتاج لهذا الغرض (وهو Tailor وكانت مصممة لمراقبة البنية التحتية الكبيرة والاستقرار) كما شعرت وكأنها ضعيفة استخدام الوقت وسيجعل المستودع القديم والجديد أسوأ حالا. لكن هذا جعلني أفكر، لماذا كانت جودة التدريب في فرونتير 'صغيرة نوعا ما'؟ هل هذا هو صعب اللعبة (مثلا أقل من 20 مليار برام إجمالا) هل هو صعب؟ لماذا لم تقم الريبو/الليبرالي I بذلك؟ هل المطلوب موجود بالفعل؟ بعد التفكير في الأمر لفترة، معظم التحديات التي استطعت التفكير بها كانت في ثلاثة أمور مختلفة: - الفلوبز / كفاءة الفلوب - توازن الحمل / استقرار جهاز التوجيه - جودة وكمية البيانات يتخبط تدريب النماذج الكثيفة أصبح بسيطا هذه الأيام. التدريب الديناميكيات غالبا ما تكون مترابطة، وإذا كان لديك عدد كاف من المعلمات في البنية، النموذج سيتعلم تقريبا رغم أخطائك العديدة (هذا الأمر أثر علي المؤخرة أكثر من مرة). [أسلوب DeepSeek فائق الانتشار جدا](الفرق المختلفة لأن ديناميكيات تدريبك مختلفة منفصلة إلى حد ما. فقط جزء من MLPs الخاص بك نشط لرمز معين، ومع تقدم التدريب، يتغير الخبراء النشطون ويتطورون مع مرور الوقت. هذا يكون ما الذي يجعل التدريب متعدد العصور وإعادة صياغة البيانات فعالا جدا لوزارة التعليم (خاصة الأكبر). تحصل على انتصارات كبيرة في كفاءة الاستدلال وصغيرة...