💡关于Minimax M2的一些有趣事实: 1. Minimax使用类似于GPT-OSS的结构,即全注意力与滑动窗口注意力(SWA)交错。 2. 它使用QK Norm,每个注意力头都有自己独特的、可学习的RMSNorm。 3. 全注意力和SWA部分甚至不共享设置:它们各自拥有自己的RoPE theta配置。 还有一件事……有人可能会问为什么不使用线性注意力(加法规则或增量规则) ⚡️答案很明确:FlashAttention(Dao等)是如此有效,支持低精度训练和推理(FP8/FP4),而线性注意力在低精度下无法工作! 很高兴看到越来越多的AI实验室在做真正的科学,而不是《傲慢与偏见》!😃