💡Muutamia hauskoja faktoja Minimax M2:sta: 1. Minimax käyttää GPT-OSS:n kaltaista rakennetta, eli Full Attention lomitettuna liukuvan ikkunan huomion (SWA) kanssa. 2. Se käyttää QK Normia, ja jokaisella huomiopäällä on oma ainutlaatuinen, opittava RMSNorminsa. 3. Täysi huomio ja SWA-osat eivät edes jaa asetuksia: ne saavat kukin oman RoPE-theta-kokoonpanonsa. Vielä yksi asia... Joku saattaa kysyä, miksi ei käytetä lineaarista huomiota (additiivisääntö tai deltasääntö ⚡️Vastaus on selvä: FlashAttention (Dao et al.) on niin tehokas, että se tukee matalan tarkkuuden harjoittelua ja päättelyä (FP8/FP4), kun taas lineaarinen huomio ei toimi matalalla tarkkuudella! Mukava nähdä, että yhä useammat tekoälylaboratoriot tekevät todellista tiedettä ylpeyden ja ennakkoluulon sijaan! 😃