Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Alcuni fatti divertenti su Minimax M2:
1. Minimax utilizza una struttura simile a GPT-OSS, ovvero Full Attention intercalato con Sliding Window Attention (SWA).
2. Utilizza QK Norm, e ogni singolo head di attenzione ha il proprio RMSNorm unico e apprendibile.
3. Le parti di full attention e SWA non condividono nemmeno le impostazioni: ognuna ha la propria configurazione RoPE theta.
Un'altra cosa... Qualcuno potrebbe chiedere perché non utilizzare l'attenzione lineare (regola additiva o regola delta)
⚡️La risposta è chiara: FlashAttention (Dao et al.) è così efficace, supportando l'addestramento e l'inferenza a bassa precisione (FP8/FP4), mentre l'attenzione lineare non funziona a bassa precisione!
Felice di vedere che sempre più AI Labs stanno facendo vera scienza, invece di Orgoglio e Pregiudizio! 😃

Principali
Ranking
Preferiti

