Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Mengapa Melatih MoE Sangat Sulit
Baru-baru ini, saya menemukan diri saya menginginkan repositori pelatihan kecil yang berfokus pada penelitian
bahwa saya dapat melakukan eksperimen kecil dengan cepat dan mudah. Berbagai eksperimen ini
dari mencoba arsitektur perhatian baru (MLA, SWA, NSA, KDA - semua dapat dicolokkan) hingga pelatihan multi-presisi hingga sebagian besar
baru-baru ini pengaturan multi pengoptimal dengan pengoptimal 'baru'. Saya mencoba 3 utama
pesaing (Nemo, Megatron dan Torchtitan) tetapi karena banyak dan berbagai alasan mereka
sangat tidak sesuai dengan tagihan untuk tujuan saya dan semuanya cukup menyakitkan untuk
Siapkan, gunakan, dan jalankan secara stabil. Saya sekali lagi melewatkan alat saya dari google
dan menulis ulang tumpukan pelatihan produksi saya untuk tujuan ini (yaitu tailor
dibuat untuk pemantauan dan stabilitas infrastruktur besar) juga terasa seperti
penggunaan waktu dan akan membuat repositori lama dan baru menjadi lebih buruk untuknya.
Namun, ini membuat saya berpikir, mengapa kualitas perbatasan pelatihan 'kecil'
MoE (katakanlah di bawah 20B total param) sangat sulit? Mengapa Repo / Lib I tidak
ingin sudah ada? Setelah memikirkannya sebentar, sebagian besar
Tantangan yang bisa saya hadapi bermuara pada 3 hal berbeda:
- Efisiensi flop / flop
- Penyeimbangan beban / stabilitas router
- kualitas dan kuantitas data
Gagal
Melatih model padat cukup mudah akhir-akhir ini. Pelatihan
dinamika sebagian besar digabungkan, dan jika Anda memiliki cukup parameter dalam arsitektur,
model ini akan belajar terlepas dari banyak kesalahan Anda (ini telah menggigit saya
pantat lebih dari sekali). [Gaya DeepSeek sangat jarang]( MoE berbeda karena dinamika pelatihan Anda adalah
agak terputus. Hanya sebagian dari MLP Anda yang aktif untuk token tertentu,
dan seiring berjalannya pelatihan, para ahli aktif berubah dan berkembang dari waktu ke waktu. ini adalah
Apa yang membuat pelatihan multi zaman dan penyusunan ulang data begitu efektif untuk Kementerian Pendidikan
(terutama yang lebih besar). Anda mendapatkan efisiensi inferensi besar dan kecil...

Teratas
Peringkat
Favorit
