💡Einige interessante Fakten über Minimax M2: 1. Minimax verwendet eine GPT-OSS-ähnliche Struktur, d.h. vollständige Aufmerksamkeit, die mit Sliding Window Attention (SWA) kombiniert ist. 2. Es verwendet QK Norm, und jeder einzelne Attention-Head hat seine eigene einzigartige, lernbare RMSNorm. 3. Die Teile mit voller Aufmerksamkeit und SWA teilen sich nicht einmal die Einstellungen: Jeder erhält seine eigene RoPE Theta-Konfiguration. Noch eine Sache... Jemand könnte fragen, warum man nicht lineare Aufmerksamkeit (additive Regel oder Delta-Regel) verwendet. ⚡️Die Antwort ist klar: FlashAttention (Dao et al.) ist so effektiv, unterstützt das Training und die Inferenz mit niedriger Präzision (FP8/FP4), während lineare Aufmerksamkeit bei niedriger Präzision nicht funktioniert! Ich freue mich zu sehen, dass immer mehr KI-Labore echte Wissenschaft betreiben, anstatt Stolz und Vorurteil! 😃