💡Algumas curiosidades sobre o Minimax M2: 1. O Minimax usa uma estrutura semelhante ao GPT-OSS, ou seja, Atenção Total intercalada com Atenção da Janela Deslizante (SWA). 2. Ele usa QK Norm, e cada cabeça de atenção tem seu próprio RMSNorm exclusivo e aprendível. 3. A atenção total e as partes SWA nem mesmo compartilham configurações: cada uma delas obtém sua própria configuração RoPE theta. Mais uma coisa... Alguém pode perguntar por que não usar atenção linear (regra aditiva ou regra delta ⚡️A resposta é clara: o FlashAttention (Dao et al.) é tão eficaz, suportando treinamento e inferência de baixa precisão (FP8 / FP4), enquanto o Linear Attention não funciona com baixa precisão! Fico feliz em ver que mais e mais laboratórios de IA estão fazendo ciência real, em vez de Orgulho e Preconceito! 😃