# Mengapa Melatih MoE Sangat Sulit Baru-baru ini, saya menemukan diri saya menginginkan repositori pelatihan kecil yang berfokus pada penelitian bahwa saya dapat melakukan eksperimen kecil dengan cepat dan mudah. Berbagai eksperimen ini dari mencoba arsitektur perhatian baru (MLA, SWA, NSA, KDA - semua dapat dicolokkan) hingga pelatihan multi-presisi hingga sebagian besar baru-baru ini pengaturan multi pengoptimal dengan pengoptimal 'baru'. Saya mencoba 3 utama pesaing (Nemo, Megatron dan Torchtitan) tetapi karena banyak dan berbagai alasan mereka sangat tidak sesuai dengan tagihan untuk tujuan saya dan semuanya cukup menyakitkan untuk Siapkan, gunakan, dan jalankan secara stabil. Saya sekali lagi melewatkan alat saya dari google dan menulis ulang tumpukan pelatihan produksi saya untuk tujuan ini (yaitu tailor dibuat untuk pemantauan dan stabilitas infrastruktur besar) juga terasa seperti penggunaan waktu dan akan membuat repositori lama dan baru menjadi lebih buruk untuknya. Namun, ini membuat saya berpikir, mengapa kualitas perbatasan pelatihan 'kecil' MoE (katakanlah di bawah 20B total param) sangat sulit? Mengapa Repo / Lib I tidak ingin sudah ada? Setelah memikirkannya sebentar, sebagian besar Tantangan yang bisa saya hadapi bermuara pada 3 hal berbeda: - Efisiensi flop / flop - Penyeimbangan beban / stabilitas router - kualitas dan kuantitas data Gagal Melatih model padat cukup mudah akhir-akhir ini. Pelatihan dinamika sebagian besar digabungkan, dan jika Anda memiliki cukup parameter dalam arsitektur, model ini akan belajar terlepas dari banyak kesalahan Anda (ini telah menggigit saya pantat lebih dari sekali). [Gaya DeepSeek sangat jarang]( MoE berbeda karena dinamika pelatihan Anda adalah agak terputus. Hanya sebagian dari MLP Anda yang aktif untuk token tertentu, dan seiring berjalannya pelatihan, para ahli aktif berubah dan berkembang dari waktu ke waktu. ini adalah Apa yang membuat pelatihan multi zaman dan penyusunan ulang data begitu efektif untuk Kementerian Pendidikan (terutama yang lebih besar). Anda mendapatkan efisiensi inferensi besar dan kecil...