Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# MoE'leri Eğitmek Neden Bu Kadar Zor
Son zamanlarda, küçük ve araştırma odaklı bir eğitim deposu istediğimi fark ettim.
Üzerinde hızlı ve kolay küçük deneyler yapabileceğim bir şey. Bu deneyler kapsam alanını gösterir
Yeni dikkat mimarileri (MLA, SWA, NSA, KDA - hepsi takılabilir) denemekten, çoğu kişiye çok hassasiyetli eğitime kadar
Son zamanlarda 'yeni' optimizatörlerle çoklu optimizer kurulumları yapıldı. 3 majör programı denedim
adaylar (Nemo, Megatron ve Torchtitan) ama birçok ve çeşitli nedenlerle
Amaçlarım için kesinlikle uygun değildi ve hepsi oldukça acı vericiydi
Kur, kullan ve istikrarlı bir şekilde çalışmaya başla. Google'daki araçlarımı yine kaçırdım
ve bu amaçla prodüksiyon eğitim yığınımı yeniden yazmak (ki bu Tailor
büyük altyapı izleme ve istikrar için tasarlandı) da kötü hissettirdi.
zaman harcaması ve hem eski hem de yeni depoyu daha kötü hale getirir.
Ancak bu beni düşündürdü, neden training frontier kalitesi 'küçük'
Birçok Eğitim (örneğin toplamda 20B parametrenin altında) bu kadar zor mu? Neden depo / Lib, I
Zaten var olan Wanted? Bir süre düşündükten sonra, çoğu
Bulabildiğim zorluklar 3 farklı şeye indirgendi:
- flop / flop verimliliği
- yük dengeleme / yönlendirici kararlılığı
- veri kalitesi ve niceliği
Flop
Yoğun modelleri eğitmek artık oldukça basit. Eğitim
Dinamikler çoğunlukla birbirine bağlıdır ve mimaride yeterli param varsa,
Model, birçok hatanıza rağmen (bu beni ısırdı
Birden fazla kez popo). [DeepSeek tarzı ultra seyrek](Eğitim Mühendisliği farklı çünkü eğitim dinamikleriniz
Biraz kopuk durumda. Belirli bir token için sadece MLP'lerinizin bir kısmı aktiftir,
Ve eğitim ilerledikçe, aktif uzmanlar zamanla değişir ve gelişir. burası
Çok dönemli eğitim ve veri yeniden ifade etmeyi MoE'ler için bu kadar etkili kılan şey
(özellikle daha büyük olanlar). Büyük çıkarım verimliliği kazanır, küçük kazançlar da vardır...

En İyiler
Sıralama
Takip Listesi
