一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

💡关于Minimax M2的一些有趣事实： 1. Minimax使用类似于GPT-OSS的结构，即全注意力与滑动窗口注意力（SWA）交错。 2. 它使用QK Norm，每个注意力头都有自己独特的、可学习的RMSNorm。 3. 全注意力和SWA部分甚至不共享设置：它们各自拥有自己的RoPE theta配置。还有一件事……有人可能会问为什么不使用线性注意力（加法规则或增量规则） ⚡️答案很明确：FlashAttention（Dao等）是如此有效，支持低精度训练和推理（FP8/FP4），而线性注意力在低精度下无法工作！很高兴看到越来越多的AI实验室在做真正的科学，而不是《傲慢与偏见》！😃