Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Beberapa fakta menarik tentang Minimax M2:
1. Minimax menggunakan struktur seperti GPT-OSS, yaitu, Perhatian Penuh diselingi dengan Sliding Window Attention (SWA).
2. Ini menggunakan QK Norm, dan setiap kepala perhatian memiliki RMSNorm yang unik dan dapat dipelajari.
3. Perhatian penuh dan bagian SWA bahkan tidak berbagi pengaturan: masing-masing mendapatkan konfigurasi theta RoPE mereka sendiri.
Satu hal lagi... Seseorang mungkin bertanya mengapa tidak menggunakan perhatian linier (aturan aditif atau aturan delta
⚡️Jawabannya jelas: FlashAttention (Dao et al.) sangat efektif, mendukung pelatihan dan inferensi presisi rendah (FP8/FP4), sedangkan Linear Attention tidak bekerja di bawah presisi rendah!
Senang melihat semakin banyak AI Labs melakukan sains nyata, bukan Pride and Prejudice! 😃

Teratas
Peringkat
Favorit

