💡Beberapa fakta menarik tentang Minimax M2: 1. Minimax menggunakan struktur seperti GPT-OSS, yaitu, Perhatian Penuh diselingi dengan Sliding Window Attention (SWA). 2. Ini menggunakan QK Norm, dan setiap kepala perhatian memiliki RMSNorm yang unik dan dapat dipelajari. 3. Perhatian penuh dan bagian SWA bahkan tidak berbagi pengaturan: masing-masing mendapatkan konfigurasi theta RoPE mereka sendiri. Satu hal lagi... Seseorang mungkin bertanya mengapa tidak menggunakan perhatian linier (aturan aditif atau aturan delta ⚡️Jawabannya jelas: FlashAttention (Dao et al.) sangat efektif, mendukung pelatihan dan inferensi presisi rendah (FP8/FP4), sedangkan Linear Attention tidak bekerja di bawah presisi rendah! Senang melihat semakin banyak AI Labs melakukan sains nyata, bukan Pride and Prejudice! 😃