# Por que treinar MoEs é tão difícil Recentemente, tenho me pegado querendo um pequeno repositório de treinamento focado em pesquisa Que eu possa fazer pequenos experimentos rápida e facilmente. Esses experimentos variam desde testar novas arquiteturas de atenção (MLA, SWA, NSA, KDA - todas pluggáveis) até treinamentos de multiprecisão para a maioria Recentemente, configurações de múltiplos otimizadores com otimizadores 'novos'. Tentei os 3 cursos principais concorrentes (Nemo, Megatron e Torchtitan), mas por muitos e vários motivos eles Definitivamente não se encaixava no que eu queria e era bem difícil Configure, use e faça funcionar de forma estável. Mais uma vez senti falta das minhas ferramentas do Google e reescrevendo minha pilha de treinamento de produção para esse propósito (que é Tailor feito para monitoramento e estabilidade de grande infraestrutura) também pareceu ruim e isso pioraria tanto o repositório antigo quanto o novo. Isso me fez pensar, porém, por que treinar a qualidade Frontier era 'pequeno' MoEs (digamos menos de 20 bilhões de parâmetros no total) tão difícil? Por que o repouso / o lib i Já existe o que quiser? Depois de pensar um pouco, a maioria dos Os desafios que eu conseguia criar se resumiam a 3 coisas diferentes: - flops / eficiência do flop - balanceamento de carga / estabilidade do roteador - qualidade e quantidade dos dados Flops Treinar modelos densos hoje em dia é bem simples. O Treinamento A dinâmica é em sua maioria acoplada, e se você tiver parâmetros suficientes na arquitetura, O modelo vai aprender praticamente apesar dos seus muitos erros (isso me pegou O bumbum mais de uma vez). [Ultra-esparso no estilo DeepSeek]( MoEs são diferentes porque suas dinâmicas de treinamento são um pouco desacoplado. Apenas uma parte dos seus MLPs está ativa para um determinado token, E à medida que o treinamento avança, os especialistas ativos mudam e evoluem com o tempo. É o que torna o treinamento multi-época e a reformulação de dados tão eficazes para MoEs (especialmente os maiores). Você obtém grandes vitórias em eficiência de inferência e pequenas...