Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Por qué entrenar a MoEs tan difícil
Últimamente, me he encontrado queriendo un pequeño repositorio de entrenamiento enfocado en la investigación
En eso puedo hacer pequeños experimentos rápida y fácilmente. Estos experimentos abarcan
desde probar nuevas arquitecturas de atención (MLA, SWA, NSA, KDA - todas enchufables) hasta entrenamiento multiprecisión para la mayoría
Recientemente configuraciones de múltiples optimizadores con optimizadores 'nuevos'. Probé las tres carreras
contendientes (Nemo, Megatron y Torchtitan), pero por muchas y diversas razones
No encajaba nada con mis propósitos y todos resultaban bastante dolorosos
Configurar, usar y hacer que funcione de forma estable. Una vez más eché de menos mis herramientas de Google
y reescribiendo mi pila de formación de producción para este propósito (que es tailor
hecho para una gran infraestructura de monitorización y estabilidad) también me pareció un mal
Consumiría tiempo y empeoraría tanto el repouso antiguo como el nuevo.
Sin embargo, esto me hizo pensar, ¿por qué entrenar en calidad frontera era 'pequeño'
¿MoEs (digamos menos de 20 mil millones de parámetros en total) tan difícil? ¿Por qué no el repo / lib i
¿Ya existe el deseado? Después de pensarlo un rato, la mayoría de los
Los retos que se me ocurrían se reducían a 3 cosas diferentes:
- flops / eficiencia flop
- balanceo de carga / estabilidad del router
- calidad y cantidad de datos
Flop
Entrenar modelos densos es bastante sencillo hoy en día. El entrenamiento
La dinámica está mayormente acoplada, y si tienes suficientes parámetros en la arquitectura,
El modelo prácticamente aprenderá a pesar de tus muchos errores (esto me ha molestado
el culo más de una vez). [Ultra-escaso al estilo DeepSeek]( Los MoEs son diferentes porque vuestras dinámicas de entrenamiento son
algo desacoplados. Solo una parte de tus MLP están activas para un token dado,
Y a medida que avanza la formación, los expertos activos cambian y evolucionan con el tiempo. Esto es
¿qué hace que el entrenamiento multi-época y la reformulación de datos sean tan efectivos para los MoEs?
(especialmente los más grandes). Obtienes grandes victorias en eficiencia de inferencia y pequeñas...

Populares
Ranking
Favoritas
