Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Algumas curiosidades sobre o Minimax M2:
1. O Minimax usa uma estrutura semelhante ao GPT-OSS, ou seja, Atenção Total intercalada com Atenção da Janela Deslizante (SWA).
2. Ele usa QK Norm, e cada cabeça de atenção tem seu próprio RMSNorm exclusivo e aprendível.
3. A atenção total e as partes SWA nem mesmo compartilham configurações: cada uma delas obtém sua própria configuração RoPE theta.
Mais uma coisa... Alguém pode perguntar por que não usar atenção linear (regra aditiva ou regra delta
⚡️A resposta é clara: o FlashAttention (Dao et al.) é tão eficaz, suportando treinamento e inferência de baixa precisão (FP8 / FP4), enquanto o Linear Attention não funciona com baixa precisão!
Fico feliz em ver que mais e mais laboratórios de IA estão fazendo ciência real, em vez de Orgulho e Preconceito! 😃

Melhores
Classificação
Favoritos

