O relatório técnico do @Meituan_LongCat LongCat-Flash é muito bom e cheio de novidades. O modelo é um MoE ativo passivo de 560B ~ 27B com número adaptativo de parâmetros ativos, dependendo do contexto, graças ao especialista em Zero-Computacional. 1) Nova arquitetura > camadas têm 2 blocos de atenção e FFN e MoE, dessa forma você pode sobrepor os 2 coms all-to-all. (também são apenas 28 camadas, mas você deve levar em consideração os 2 blocos de atenção). > Eles adicionam o especialista em computação zero que os tokens podem escolher e não fazer nada, como um "coletor" para tokens fáceis. > Para balanceamento de carga, eles têm uma perda auxiliar semelhante a dsv3 livre para definir o especialista real/falso médio por token. Eles aplicam um cronograma de decaimento a essa atualização de viés. Eles também fazem controle de saldo de perda. 2) Escala > Eles fizeram alterações no MLA / MoE para ter alinhamento de variação no início. Os ganhos são bastante impressionantes na Figura 5, mas não sei até que ponto isso terá impacto mais tarde. > init de crescimento do modelo é muito legal, eles primeiro treinam um modelo 2x menor e depois "quando é treinado o suficiente" (um pouco incerto aqui quantos tokens B) eles iniciam o modelo final apenas empilhando as camadas do modelo menor. > Eles usaram @_katieeverett @Locchiu e al. papel para ter transferência de hiperparâmetros com SP em vez de muP para o modelo 2x menor ig. 3) Estabilidade > Eles rastreiam a taxa de norma de gradiente e a similaridade de cosseno entre os especialistas para ajustar o peso da perda de balanceamento de carga (eles recomendam a taxa de norma de gradiente <0,1). > Para evitar grandes ativações, eles aplicam uma perda z ao estado oculto, com um coef bem pequeno (outra alternativa ao qk-clip/norm). > Eles definem Adam epsilon como 1e-16 e mostram que você deseja que ele seja menor que o intervalo RMS de gradiente. 4) Outros > Eles treinam em tokens 20T para a fase 1, "múltiplos T de tokens" para treinamento intermediário em dados STEM/código (70% da mistura), 100B para extensão de contexto longo sem fio (80B para 32k, 20B para 128k). Os documentos de contexto longos representam 25% da mistura (não tenho certeza se é % de documentos ou tokens, o que muda muito aqui). > pipeline de dados de pré-treinamento é extração de contexto, filtragem de qualidade, desduplicação. > Belo apêndice onde eles mostram que comparam top_k necessários para diferentes benchmarks (MMLU mais alto com 8,32, GSM8K mais baixo com 7,46). Eles também comparam a alocação de tokens em camadas profundas/rasas. > Eles lançam dois novos benchmarks: Meeseeks (FI multi-turnos) e VitaBench (cenário de negócios do mundo real). > Muitos detalhes na infra / inferência com informações sobre aceitação de decodificação especulativa, quantização, implantação, otimização do kernel, sobreposição de coms, etc. > Lista dos diferentes artigos relevantes no tópico 🧵
218,36K