# Por qué entrenar a MoEs tan difícil Últimamente, me he encontrado queriendo un pequeño repositorio de entrenamiento enfocado en la investigación En eso puedo hacer pequeños experimentos rápida y fácilmente. Estos experimentos abarcan desde probar nuevas arquitecturas de atención (MLA, SWA, NSA, KDA - todas enchufables) hasta entrenamiento multiprecisión para la mayoría Recientemente configuraciones de múltiples optimizadores con optimizadores 'nuevos'. Probé las tres carreras contendientes (Nemo, Megatron y Torchtitan), pero por muchas y diversas razones No encajaba nada con mis propósitos y todos resultaban bastante dolorosos Configurar, usar y hacer que funcione de forma estable. Una vez más eché de menos mis herramientas de Google y reescribiendo mi pila de formación de producción para este propósito (que es tailor hecho para una gran infraestructura de monitorización y estabilidad) también me pareció un mal Consumiría tiempo y empeoraría tanto el repouso antiguo como el nuevo. Sin embargo, esto me hizo pensar, ¿por qué entrenar en calidad frontera era 'pequeño' ¿MoEs (digamos menos de 20 mil millones de parámetros en total) tan difícil? ¿Por qué no el repo / lib i ¿Ya existe el deseado? Después de pensarlo un rato, la mayoría de los Los retos que se me ocurrían se reducían a 3 cosas diferentes: - flops / eficiencia flop - balanceo de carga / estabilidad del router - calidad y cantidad de datos Flop Entrenar modelos densos es bastante sencillo hoy en día. El entrenamiento La dinámica está mayormente acoplada, y si tienes suficientes parámetros en la arquitectura, El modelo prácticamente aprenderá a pesar de tus muchos errores (esto me ha molestado el culo más de una vez). [Ultra-escaso al estilo DeepSeek]( Los MoEs son diferentes porque vuestras dinámicas de entrenamiento son algo desacoplados. Solo una parte de tus MLP están activas para un token dado, Y a medida que avanza la formación, los expertos activos cambian y evolucionan con el tiempo. Esto es ¿qué hace que el entrenamiento multi-época y la reformulación de datos sean tan efectivos para los MoEs? (especialmente los más grandes). Obtienes grandes victorias en eficiencia de inferencia y pequeñas...