Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Noen morsomme fakta om Minimax M2:
1. Minimax bruker GPT-OSS-lignende struktur, det vil si Full Attention interfoliert med Sliding Window Attention (SWA).
2. Den bruker QK Norm, og hvert eneste oppmerksomhetshode har sin egen unike, lærbare RMSNorm.
3. Full oppmerksomhet og SWA-deler deler ikke engang innstillinger: de får hver sin RoPE-theta-konfigurasjon.
En ting til... Noen kan spørre hvorfor ikke bruke lineær oppmerksomhet (additiv regel eller deltaregel
⚡️Svaret er klart: FlashAttention (Dao et al.) er så effektivt, og støtter lavpresisjonstrening og inferens (FP8/FP4), mens lineær oppmerksomhet ikke fungerer under lav presisjon!
Glad for å se at flere og flere AI Labs driver med ekte vitenskap, i stedet for stolthet og fordom! 😃

Topp
Rangering
Favoritter

