DApp Store | Web3 Hub for hendelser og spill

Populære emner

💡Noen morsomme fakta om Minimax M2: 1. Minimax bruker GPT-OSS-lignende struktur, det vil si Full Attention interfoliert med Sliding Window Attention (SWA). 2. Den bruker QK Norm, og hvert eneste oppmerksomhetshode har sin egen unike, lærbare RMSNorm. 3. Full oppmerksomhet og SWA-deler deler ikke engang innstillinger: de får hver sin RoPE-theta-konfigurasjon. En ting til... Noen kan spørre hvorfor ikke bruke lineær oppmerksomhet (additiv regel eller deltaregel ⚡️Svaret er klart: FlashAttention (Dao et al.) er så effektivt, og støtter lavpresisjonstrening og inferens (FP8/FP4), mens lineær oppmerksomhet ikke fungerer under lav presisjon! Glad for å se at flere og flere AI Labs driver med ekte vitenskap, i stedet for stolthet og fordom! 😃

Topp

Rangering

Favoritter