💡Alcuni fatti divertenti su Minimax M2: 1. Minimax utilizza una struttura simile a GPT-OSS, ovvero Full Attention intercalato con Sliding Window Attention (SWA). 2. Utilizza QK Norm, e ogni singolo head di attenzione ha il proprio RMSNorm unico e apprendibile. 3. Le parti di full attention e SWA non condividono nemmeno le impostazioni: ognuna ha la propria configurazione RoPE theta. Un'altra cosa... Qualcuno potrebbe chiedere perché non utilizzare l'attenzione lineare (regola additiva o regola delta) ⚡️La risposta è chiara: FlashAttention (Dao et al.) è così efficace, supportando l'addestramento e l'inferenza a bassa precisione (FP8/FP4), mentre l'attenzione lineare non funziona a bassa precisione! Felice di vedere che sempre più AI Labs stanno facendo vera scienza, invece di Orgoglio e Pregiudizio! 😃