Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

# Por Que Treinar MoEs é Tão Difícil recentemente, encontrei-me querendo um pequeno repositório de treinamento focado em pesquisa que eu possa usar para fazer pequenos experimentos de forma rápida e fácil. esses experimentos variam desde testar novas arquiteturas de atenção (MLA, SWA, NSA, KDA - todas plugáveis) até treinamento de múltiplas precisões e, mais recentemente, configurações de múltiplos otimizadores com otimizadores 'novos'. eu tentei os 3 principais concorrentes (Nemo, Megatron e Torchtitan), mas por muitos e variados motivos, eles não se adequaram às minhas necessidades e foram todos bastante dolorosos de configurar, usar e fazer funcionar de forma estável. Mais uma vez, senti falta das minhas ferramentas do google e reescrever minha pilha de treinamento de produção para esse propósito (que é feita sob medida para monitoramento e estabilidade de grandes infraestruturas) também parecia um mau uso de tempo e tornaria tanto o repositório antigo quanto o novo piores. Isso me fez pensar, no entanto, por que era tão difícil treinar MoEs 'pequenos' com qualidade de fronteira (digamos, com menos de 20B de parâmetros no total)? por que o repositório / biblioteca que eu queria já não existia? Depois de pensar sobre isso por um tempo, a maioria dos desafios que consegui identificar se resumiu a 3 coisas diferentes: - flops / eficiência de flop - balanceamento de carga / estabilidade do roteador - qualidade e quantidade de dados Flops treinar modelos densos é bastante simples hoje em dia. a dinâmica de treinamento está principalmente acoplada, e se você tiver parâmetros suficientes na arquitetura, o modelo aprenderá praticamente apesar de seus muitos erros (isso já me causou problemas mais de uma vez). [DeepSeek-style ultra-sparse]( MoEs são diferentes porque suas dinâmicas de treinamento são um tanto desacopladas. Apenas uma parte de seus MLPs está ativa para um determinado token, e à medida que o treinamento avança, os especialistas ativos mudam e evoluem ao longo do tempo. isso é o que torna o treinamento de múltiplas épocas e a reformulação de dados tão eficazes para MoEs (especialmente os maiores). Você obtém grandes ganhos de eficiência de inferência e pequenos ganhos de eficiência de treinamento, mas à custa de dinâmicas de treinamento desacopladas (o que...

Top

Classificação

Favoritos