💡Algunos datos curiosos sobre Minimax M2: 1. Minimax utiliza una estructura similar a GPT-OSS, es decir, Full Attention intercalada con Sliding Window Attention (SWA). 2. Utiliza QK Norm, y cada cabeza de atención tiene su propio RMSNorm único y fácil de aprender. 3. Las partes de atención completa y SWA ni siquiera comparten configuraciones: cada una tiene su propia configuración RoPE theta. Una cosa más... Alguien puede preguntar por qué no usar la atención lineal (regla aditiva o regla delta ⚡️La respuesta es clara: FlashAttention (Dao et al.) es muy eficaz y admite entrenamiento e inferencia de baja precisión (FP8/FP4), mientras que Linear Attention no funciona con baja precisión. ¡Me alegra ver que cada vez más laboratorios de IA están haciendo ciencia real, en lugar de Orgullo y prejuicio! 😃