Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Muutamia hauskoja faktoja Minimax M2:sta:
1. Minimax käyttää GPT-OSS:n kaltaista rakennetta, eli Full Attention lomitettuna liukuvan ikkunan huomion (SWA) kanssa.
2. Se käyttää QK Normia, ja jokaisella huomiopäällä on oma ainutlaatuinen, opittava RMSNorminsa.
3. Täysi huomio ja SWA-osat eivät edes jaa asetuksia: ne saavat kukin oman RoPE-theta-kokoonpanonsa.
Vielä yksi asia... Joku saattaa kysyä, miksi ei käytetä lineaarista huomiota (additiivisääntö tai deltasääntö
⚡️Vastaus on selvä: FlashAttention (Dao et al.) on niin tehokas, että se tukee matalan tarkkuuden harjoittelua ja päättelyä (FP8/FP4), kun taas lineaarinen huomio ei toimi matalalla tarkkuudella!
Mukava nähdä, että yhä useammat tekoälylaboratoriot tekevät todellista tiedettä ylpeyden ja ennakkoluulon sijaan! 😃

Johtavat
Rankkaus
Suosikit

