Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Por que treinar MoEs é tão difícil
Recentemente, tenho me pegado querendo um pequeno repositório de treinamento focado em pesquisa
Que eu possa fazer pequenos experimentos rápida e facilmente. Esses experimentos variam
desde testar novas arquiteturas de atenção (MLA, SWA, NSA, KDA - todas pluggáveis) até treinamentos de multiprecisão para a maioria
Recentemente, configurações de múltiplos otimizadores com otimizadores 'novos'. Tentei os 3 cursos principais
concorrentes (Nemo, Megatron e Torchtitan), mas por muitos e vários motivos eles
Definitivamente não se encaixava no que eu queria e era bem difícil
Configure, use e faça funcionar de forma estável. Mais uma vez senti falta das minhas ferramentas do Google
e reescrevendo minha pilha de treinamento de produção para esse propósito (que é Tailor
feito para monitoramento e estabilidade de grande infraestrutura) também pareceu ruim
e isso pioraria tanto o repositório antigo quanto o novo.
Isso me fez pensar, porém, por que treinar a qualidade Frontier era 'pequeno'
MoEs (digamos menos de 20 bilhões de parâmetros no total) tão difícil? Por que o repouso / o lib i
Já existe o que quiser? Depois de pensar um pouco, a maioria dos
Os desafios que eu conseguia criar se resumiam a 3 coisas diferentes:
- flops / eficiência do flop
- balanceamento de carga / estabilidade do roteador
- qualidade e quantidade dos dados
Flops
Treinar modelos densos hoje em dia é bem simples. O Treinamento
A dinâmica é em sua maioria acoplada, e se você tiver parâmetros suficientes na arquitetura,
O modelo vai aprender praticamente apesar dos seus muitos erros (isso me pegou
O bumbum mais de uma vez). [Ultra-esparso no estilo DeepSeek]( MoEs são diferentes porque suas dinâmicas de treinamento são
um pouco desacoplado. Apenas uma parte dos seus MLPs está ativa para um determinado token,
E à medida que o treinamento avança, os especialistas ativos mudam e evoluem com o tempo. É
o que torna o treinamento multi-época e a reformulação de dados tão eficazes para MoEs
(especialmente os maiores). Você obtém grandes vitórias em eficiência de inferência e pequenas...

Melhores
Classificação
Favoritos
