# MoE'leri Eğitmek Neden Bu Kadar Zor Son zamanlarda, küçük ve araştırma odaklı bir eğitim deposu istediğimi fark ettim. Üzerinde hızlı ve kolay küçük deneyler yapabileceğim bir şey. Bu deneyler kapsam alanını gösterir Yeni dikkat mimarileri (MLA, SWA, NSA, KDA - hepsi takılabilir) denemekten, çoğu kişiye çok hassasiyetli eğitime kadar Son zamanlarda 'yeni' optimizatörlerle çoklu optimizer kurulumları yapıldı. 3 majör programı denedim adaylar (Nemo, Megatron ve Torchtitan) ama birçok ve çeşitli nedenlerle Amaçlarım için kesinlikle uygun değildi ve hepsi oldukça acı vericiydi Kur, kullan ve istikrarlı bir şekilde çalışmaya başla. Google'daki araçlarımı yine kaçırdım ve bu amaçla prodüksiyon eğitim yığınımı yeniden yazmak (ki bu Tailor büyük altyapı izleme ve istikrar için tasarlandı) da kötü hissettirdi. zaman harcaması ve hem eski hem de yeni depoyu daha kötü hale getirir. Ancak bu beni düşündürdü, neden training frontier kalitesi 'küçük' Birçok Eğitim (örneğin toplamda 20B parametrenin altında) bu kadar zor mu? Neden depo / Lib, I Zaten var olan Wanted? Bir süre düşündükten sonra, çoğu Bulabildiğim zorluklar 3 farklı şeye indirgendi: - flop / flop verimliliği - yük dengeleme / yönlendirici kararlılığı - veri kalitesi ve niceliği Flop Yoğun modelleri eğitmek artık oldukça basit. Eğitim Dinamikler çoğunlukla birbirine bağlıdır ve mimaride yeterli param varsa, Model, birçok hatanıza rağmen (bu beni ısırdı Birden fazla kez popo). [DeepSeek tarzı ultra seyrek](Eğitim Mühendisliği farklı çünkü eğitim dinamikleriniz Biraz kopuk durumda. Belirli bir token için sadece MLP'lerinizin bir kısmı aktiftir, Ve eğitim ilerledikçe, aktif uzmanlar zamanla değişir ve gelişir. burası Çok dönemli eğitim ve veri yeniden ifade etmeyi MoE'ler için bu kadar etkili kılan şey (özellikle daha büyük olanlar). Büyük çıkarım verimliliği kazanır, küçük kazançlar da vardır...