Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Einige interessante Fakten über Minimax M2:
1. Minimax verwendet eine GPT-OSS-ähnliche Struktur, d.h. vollständige Aufmerksamkeit, die mit Sliding Window Attention (SWA) kombiniert ist.
2. Es verwendet QK Norm, und jeder einzelne Attention-Head hat seine eigene einzigartige, lernbare RMSNorm.
3. Die Teile mit voller Aufmerksamkeit und SWA teilen sich nicht einmal die Einstellungen: Jeder erhält seine eigene RoPE Theta-Konfiguration.
Noch eine Sache... Jemand könnte fragen, warum man nicht lineare Aufmerksamkeit (additive Regel oder Delta-Regel) verwendet.
⚡️Die Antwort ist klar: FlashAttention (Dao et al.) ist so effektiv, unterstützt das Training und die Inferenz mit niedriger Präzision (FP8/FP4), während lineare Aufmerksamkeit bei niedriger Präzision nicht funktioniert!
Ich freue mich zu sehen, dass immer mehr KI-Labore echte Wissenschaft betreiben, anstatt Stolz und Vorurteil! 😃

Top
Ranking
Favoriten

