🚀 HLA: Perhatian Linier Lebih Tinggi = getaran perhatian + kecepatan RNN:
Perhatian linier tingkat tinggi dengan pelatihan yang dapat diparalelkan!
Halaman Proyek:
KAMI SANGAT KEMBALI! 🚀
#LLM #AI #DeepLearning #Transformers
Perpisahan, Rotary Position Embedding (RoPE). Kami memperkirakan bahwa RoPE tidak akan lagi digunakan di LLM di masa depan.
Sesuatu yang signifikan telah terungkap; Jawabannya ada dalam gambar ini. Menantikan! 🚀
💡Beberapa fakta menarik tentang Minimax M2:
1. Minimax menggunakan struktur seperti GPT-OSS, yaitu, Perhatian Penuh diselingi dengan Sliding Window Attention (SWA).
2. Ini menggunakan QK Norm, dan setiap kepala perhatian memiliki RMSNorm yang unik dan dapat dipelajari.
3. Perhatian penuh dan bagian SWA bahkan tidak berbagi pengaturan: masing-masing mendapatkan konfigurasi theta RoPE mereka sendiri.
Satu hal lagi... Seseorang mungkin bertanya mengapa tidak menggunakan perhatian linier (aturan aditif atau aturan delta
⚡️Jawabannya jelas: FlashAttention (Dao et al.) sangat efektif, mendukung pelatihan dan inferensi presisi rendah (FP8/FP4), sedangkan Linear Attention tidak bekerja di bawah presisi rendah!
Senang melihat semakin banyak AI Labs melakukan sains nyata, bukan Pride and Prejudice! 😃
MiniMax M2: Model canggih kami yang mencapai status Top 5 global, melampaui Claude Opus 4.1 dan berada di peringkat tepat di belakang Sonnet 4.5.
Datang 27 Oktober - Nantikan