💡一些關於 Minimax M2 的有趣事實: 1. Minimax 使用類似 GPT-OSS 的結構,即全注意力與滑動窗口注意力(SWA)交錯。 2. 它使用 QK Norm,每個注意力頭都有自己獨特的、可學習的 RMSNorm。 3. 全注意力和 SWA 部分甚至不共享設置:它們各自擁有自己的 RoPE theta 配置。 還有一件事……有人可能會問為什麼不使用線性注意力(加法規則或增量規則) ⚡️答案很明確:FlashAttention(Dao 等人)是如此有效,支持低精度訓練和推理(FP8/FP4),而線性注意力在低精度下無法工作! 很高興看到越來越多的 AI 實驗室在做真正的科學,而不是驕傲與偏見!😃