Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Por Que Treinar MoEs é Tão Difícil
recentemente, encontrei-me querendo um pequeno repositório de treinamento focado em pesquisa
que eu possa usar para fazer pequenos experimentos de forma rápida e fácil. esses experimentos variam
desde testar novas arquiteturas de atenção (MLA, SWA, NSA, KDA - todas plugáveis) até treinamento de múltiplas precisões e, mais
recentemente, configurações de múltiplos otimizadores com otimizadores 'novos'. eu tentei os 3 principais
concorrentes (Nemo, Megatron e Torchtitan), mas por muitos e variados motivos, eles
não se adequaram às minhas necessidades e foram todos bastante dolorosos de
configurar, usar e fazer funcionar de forma estável. Mais uma vez, senti falta das minhas ferramentas do google
e reescrever minha pilha de treinamento de produção para esse propósito (que é feita sob medida
para monitoramento e estabilidade de grandes infraestruturas) também parecia um mau
uso de tempo e tornaria tanto o repositório antigo quanto o novo piores.
Isso me fez pensar, no entanto, por que era tão difícil treinar MoEs 'pequenos'
com qualidade de fronteira (digamos, com menos de 20B de parâmetros no total)? por que o repositório / biblioteca que eu
queria já não existia? Depois de pensar sobre isso por um tempo, a maioria dos
desafios que consegui identificar se resumiu a 3 coisas diferentes:
- flops / eficiência de flop
- balanceamento de carga / estabilidade do roteador
- qualidade e quantidade de dados
Flops
treinar modelos densos é bastante simples hoje em dia. a dinâmica de treinamento
está principalmente acoplada, e se você tiver parâmetros suficientes na arquitetura,
o modelo aprenderá praticamente apesar de seus muitos erros (isso já me causou problemas mais de uma vez). [DeepSeek-style ultra-sparse]( MoEs são diferentes porque suas dinâmicas de treinamento são
um tanto desacopladas. Apenas uma parte de seus MLPs está ativa para um determinado token,
e à medida que o treinamento avança, os especialistas ativos mudam e evoluem ao longo do tempo. isso é
o que torna o treinamento de múltiplas épocas e a reformulação de dados tão eficazes para MoEs
(especialmente os maiores). Você obtém grandes ganhos de eficiência de inferência e pequenos
ganhos de eficiência de treinamento, mas à custa de dinâmicas de treinamento desacopladas (o que...

Top
Classificação
Favoritos
