BOCEJAR 🥱 Até a Meituan (empresa de aplicativos de entrega ~ DoorDash) envia o LLM de fronteira >> Meta. A postagem que cito abaixo descreve muitos truques técnicos SOTA usados no modelo 560B MoE. Anos atrás, encontrei-me com o treinador da equipe da IMO da RPC em Pequim. Ele me disse que eles poderiam colocar em campo várias equipes de medalhistas de ouro a cada ano, se quisessem. O desempenho das equipes genAI na China apóia isso - perdi a conta do número de modelos produzidos lá que são >> Meta e SOTA. ~ Metade do talento de IA no mundo está na China e metade do talento de IA dos EUA é da China. Para americanos sem noção que não se preocupam em seguir a maior e (sem dúvida) mais inovadora economia do mundo: Meituan (chinês: 美團; pinyin: Měituán, literalmente "belo grupo"; anteriormente Meituan-Dianping, literalmente "belas avaliações de grupo") é uma empresa chinesa de tecnologia que oferece uma plataforma para uma ampla gama de consumidores locais, incluindo entrega de comida, restaurante avaliações, reservas de viagens e serviços de varejo. A empresa está sediada em Pequim e foi fundada em 2010 por Wang Xing.
elie
elie19 horas atrás
O relatório técnico do @Meituan_LongCat LongCat-Flash é muito bom e cheio de novidades. O modelo é um MoE ativo passivo de 560B ~ 27B com número adaptativo de parâmetros ativos, dependendo do contexto, graças ao especialista em Zero-Computacional. 1) Nova arquitetura > camadas têm 2 blocos de atenção e FFN e MoE, dessa forma você pode sobrepor os 2 coms all-to-all. (também são apenas 28 camadas, mas você deve levar em consideração os 2 blocos de atenção). > Eles adicionam o especialista em computação zero que os tokens podem escolher e não fazer nada, como um "coletor" para tokens fáceis. > Para balanceamento de carga, eles têm uma perda auxiliar semelhante a dsv3 livre para definir o especialista real/falso médio por token. Eles aplicam um cronograma de decaimento a essa atualização de viés. Eles também fazem controle de saldo de perda. 2) Escala > Eles fizeram alterações no MLA / MoE para ter alinhamento de variação no início. Os ganhos são bastante impressionantes na Figura 5, mas não sei até que ponto isso terá impacto mais tarde. > init de crescimento do modelo é muito legal, eles primeiro treinam um modelo 2x menor e depois "quando é treinado o suficiente" (um pouco incerto aqui quantos tokens B) eles iniciam o modelo final apenas empilhando as camadas do modelo menor. > Eles usaram @_katieeverett @Locchiu e al. papel para ter transferência de hiperparâmetros com SP em vez de muP para o modelo 2x menor ig. 3) Estabilidade > Eles rastreiam a taxa de norma de gradiente e a similaridade de cosseno entre os especialistas para ajustar o peso da perda de balanceamento de carga (eles recomendam a taxa de norma de gradiente <0,1). > Para evitar grandes ativações, eles aplicam uma perda z ao estado oculto, com um coef bem pequeno (outra alternativa ao qk-clip/norm). > Eles definem Adam epsilon como 1e-16 e mostram que você deseja que ele seja menor que o intervalo RMS de gradiente. 4) Outros > Eles treinam em tokens 20T para a fase 1, "múltiplos T de tokens" para treinamento intermediário em dados STEM/código (70% da mistura), 100B para extensão de contexto longo sem fio (80B para 32k, 20B para 128k). Os documentos de contexto longos representam 25% da mistura (não tenho certeza se é % de documentos ou tokens, o que muda muito aqui). > pipeline de dados de pré-treinamento é extração de contexto, filtragem de qualidade, desduplicação. > Belo apêndice onde eles mostram que comparam top_k necessários para diferentes benchmarks (MMLU mais alto com 8,32, GSM8K mais baixo com 7,46). Eles também comparam a alocação de tokens em camadas profundas/rasas. > Eles lançam dois novos benchmarks: Meeseeks (FI multi-turnos) e VitaBench (cenário de negócios do mundo real). > Muitos detalhes na infra / inferência com informações sobre aceitação de decodificação especulativa, quantização, implantação, otimização do kernel, sobreposição de coms, etc. > Lista dos diferentes artigos relevantes no tópico 🧵
10,67K