Pożegnanie z Rotary Position Embedding (RoPE). Przewidujemy, że RoPE nie będzie już wykorzystywane w przyszłych LLM.
Coś znaczącego już zostało ujawnione; odpowiedź znajduje się w tym obrazie. Bądźcie czujni! 🚀
💡Kilka ciekawostek o Minimax M2:
1. Minimax używa struktury podobnej do GPT-OSS, tzn. pełnej uwagi przeplatanej uwagą okna przesuwnego (SWA).
2. Używa QK Norm, a każda pojedyncza głowa uwagi ma swoją unikalną, uczącą się RMSNorm.
3. Części pełnej uwagi i SWA nawet nie dzielą ustawień: każda z nich ma swoją własną konfigurację RoPE theta.
Jeszcze jedna rzecz... Ktoś może zapytać, dlaczego nie używać uwagi liniowej (reguła addytywna lub reguła delta).
⚡️Odpowiedź jest jasna: FlashAttention (Dao i in.) jest tak skuteczny, wspierając niskoprecyzyjne szkolenie i wnioskowanie (FP8/FP4), podczas gdy uwaga liniowa nie działa przy niskiej precyzji!
Cieszę się, że coraz więcej laboratoriów AI prowadzi prawdziwe badania, zamiast duma i uprzedzenia! 😃
MiniMax M2: Our advanced model that achieves global Top 5 status, surpassing Claude Opus 4.1 and ranking just behind Sonnet 4.5.
Coming October 27th - Stay Tuned