🚀 HLA: Perhatian Linier Lebih Tinggi = getaran perhatian + kecepatan RNN:
Perhatian linier tingkat tinggi dengan pelatihan yang dapat diparalelkan!
Halaman Proyek:
KAMI SANGAT KEMBALI! 🚀
#LLM #AI #DeepLearning #Transformers
Perpisahan, Rotary Position Embedding (RoPE). Kami memperkirakan bahwa RoPE tidak akan lagi digunakan di LLM di masa depan.
Sesuatu yang signifikan telah terungkap; Jawabannya ada dalam gambar ini. Menantikan! 🚀
💡Beberapa fakta menarik tentang Minimax M2:
1. Minimax menggunakan struktur seperti GPT-OSS, yaitu, Perhatian Penuh diselingi dengan Sliding Window Attention (SWA).
2. Ini menggunakan QK Norm, dan setiap kepala perhatian memiliki RMSNorm yang unik dan dapat dipelajari.
3. Perhatian penuh dan bagian SWA bahkan tidak berbagi pengaturan: masing-masing mendapatkan konfigurasi theta RoPE mereka sendiri.
Satu hal lagi... Seseorang mungkin bertanya mengapa tidak menggunakan perhatian linier (aturan aditif atau aturan delta
⚡️Jawabannya jelas: FlashAttention (Dao et al.) sangat efektif, mendukung pelatihan dan inferensi presisi rendah (FP8/FP4), sedangkan Linear Attention tidak bekerja di bawah presisi rendah!
Senang melihat semakin banyak AI Labs melakukan sains nyata, bukan Pride and Prejudice! 😃
MiniMax M2: Our advanced model that achieves global Top 5 status, surpassing Claude Opus 4.1 and ranking just behind Sonnet 4.5.
Coming October 27th - Stay Tuned