🚀 HLA: Vyšší lineární pozornost = vibrace pozornosti + rychlost RNN:
Lineární pozornost vyššího řádu s paralelizovatelným tréninkem!
Stránka projektu:
JSME TAK ZPĚT! 🚀
#LLM #AI #DeepLearning #Transformers
Sbohem, Rotary Position Embedded (RoPE). Předpokládáme, že RoPE již nebude v budoucích LLM využíváno.
Něco významného již bylo odhaleno; Odpověď je na tomto obrázku. Zůstaňte naladěni! 🚀
💡Některá zábavná fakta o Minimax M2:
1. Minimax používá strukturu podobnou GPT-OSS, tj. Full Attention prokládanou Sliding Window Attention (SWA).
2. Používá QK Norm a každá jednotlivá hlava pozornosti má svůj vlastní jedinečný, naučitelný RMSNorm.
3. Plná pozornost a SWA části ani nesdílejí nastavení: každá z nich dostane svou vlastní konfiguraci RoPE theta.
Ještě jedna věc... Někdo se může ptát, proč nepoužít lineární pozornost (aditivní pravidlo nebo delta pravidlo
⚡️Odpověď je jasná: FlashAttention (Dao et al.) je tak efektivní, že podporuje trénování a inferenci s nízkou přesností (FP8/FP4), zatímco Linear Attention nefunguje s nízkou přesností!
Jsem rád, že stále více laboratoří umělé inteligence dělá skutečnou vědu místo Pýchy a předsudku! 😃
MiniMax M2: Our advanced model that achieves global Top 5 status, surpassing Claude Opus 4.1 and ranking just behind Sonnet 4.5.
Coming October 27th - Stay Tuned