热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
💡关于Minimax M2的一些有趣事实:
1. Minimax使用类似于GPT-OSS的结构,即全注意力与滑动窗口注意力(SWA)交错。
2. 它使用QK Norm,每个注意力头都有自己独特的、可学习的RMSNorm。
3. 全注意力和SWA部分甚至不共享设置:它们各自拥有自己的RoPE theta配置。
还有一件事……有人可能会问为什么不使用线性注意力(加法规则或增量规则)
⚡️答案很明确:FlashAttention(Dao等)是如此有效,支持低精度训练和推理(FP8/FP4),而线性注意力在低精度下无法工作!
很高兴看到越来越多的AI实验室在做真正的科学,而不是《傲慢与偏见》!😃

热门
排行
收藏

