Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡Algunos datos curiosos sobre Minimax M2:
1. Minimax utiliza una estructura similar a GPT-OSS, es decir, Full Attention intercalada con Sliding Window Attention (SWA).
2. Utiliza QK Norm, y cada cabeza de atención tiene su propio RMSNorm único y fácil de aprender.
3. Las partes de atención completa y SWA ni siquiera comparten configuraciones: cada una tiene su propia configuración RoPE theta.
Una cosa más... Alguien puede preguntar por qué no usar la atención lineal (regla aditiva o regla delta
⚡️La respuesta es clara: FlashAttention (Dao et al.) es muy eficaz y admite entrenamiento e inferencia de baja precisión (FP8/FP4), mientras que Linear Attention no funciona con baja precisión.
¡Me alegra ver que cada vez más laboratorios de IA están haciendo ciencia real, en lugar de Orgullo y prejuicio! 😃

Populares
Ranking
Favoritas

