Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BOCEJAR 🥱
Até a Meituan (empresa de aplicativos de entrega ~ DoorDash) envia o LLM de fronteira >> Meta. A postagem que cito abaixo descreve muitos truques técnicos SOTA usados no modelo 560B MoE.
Anos atrás, encontrei-me com o treinador da equipe da IMO da RPC em Pequim. Ele me disse que eles poderiam colocar em campo várias equipes de medalhistas de ouro a cada ano, se quisessem. O desempenho das equipes genAI na China apóia isso - perdi a conta do número de modelos produzidos lá que são >> Meta e SOTA.
~ Metade do talento de IA no mundo está na China e metade do talento de IA dos EUA é da China.
Para americanos sem noção que não se preocupam em seguir a maior e (sem dúvida) mais inovadora economia do mundo:
Meituan (chinês: 美團; pinyin: Měituán, literalmente "belo grupo"; anteriormente Meituan-Dianping, literalmente "belas avaliações de grupo") é uma empresa chinesa de tecnologia que oferece uma plataforma para uma ampla gama de consumidores locais, incluindo entrega de comida, restaurante avaliações, reservas de viagens e serviços de varejo. A empresa está sediada em Pequim e foi fundada em 2010 por Wang Xing.


19 horas atrás
O relatório técnico do @Meituan_LongCat LongCat-Flash é muito bom e cheio de novidades.
O modelo é um MoE ativo passivo de 560B ~ 27B com número adaptativo de parâmetros ativos, dependendo do contexto, graças ao especialista em Zero-Computacional.
1) Nova arquitetura
> camadas têm 2 blocos de atenção e FFN e MoE, dessa forma você pode sobrepor os 2 coms all-to-all. (também são apenas 28 camadas, mas você deve levar em consideração os 2 blocos de atenção).
> Eles adicionam o especialista em computação zero que os tokens podem escolher e não fazer nada, como um "coletor" para tokens fáceis.
> Para balanceamento de carga, eles têm uma perda auxiliar semelhante a dsv3 livre para definir o especialista real/falso médio por token. Eles aplicam um cronograma de decaimento a essa atualização de viés. Eles também fazem controle de saldo de perda.
2) Escala
> Eles fizeram alterações no MLA / MoE para ter alinhamento de variação no início. Os ganhos são bastante impressionantes na Figura 5, mas não sei até que ponto isso terá impacto mais tarde.
> init de crescimento do modelo é muito legal, eles primeiro treinam um modelo 2x menor e depois "quando é treinado o suficiente" (um pouco incerto aqui quantos tokens B) eles iniciam o modelo final apenas empilhando as camadas do modelo menor.
> Eles usaram @_katieeverett @Locchiu e al. papel para ter transferência de hiperparâmetros com SP em vez de muP para o modelo 2x menor ig.
3) Estabilidade
> Eles rastreiam a taxa de norma de gradiente e a similaridade de cosseno entre os especialistas para ajustar o peso da perda de balanceamento de carga (eles recomendam a taxa de norma de gradiente <0,1). > Para evitar grandes ativações, eles aplicam uma perda z ao estado oculto, com um coef bem pequeno (outra alternativa ao qk-clip/norm).
> Eles definem Adam epsilon como 1e-16 e mostram que você deseja que ele seja menor que o intervalo RMS de gradiente.
4) Outros
> Eles treinam em tokens 20T para a fase 1, "múltiplos T de tokens" para treinamento intermediário em dados STEM/código (70% da mistura), 100B para extensão de contexto longo sem fio (80B para 32k, 20B para 128k). Os documentos de contexto longos representam 25% da mistura (não tenho certeza se é % de documentos ou tokens, o que muda muito aqui).
> pipeline de dados de pré-treinamento é extração de contexto, filtragem de qualidade, desduplicação.
> Belo apêndice onde eles mostram que comparam top_k necessários para diferentes benchmarks (MMLU mais alto com 8,32, GSM8K mais baixo com 7,46). Eles também comparam a alocação de tokens em camadas profundas/rasas.
> Eles lançam dois novos benchmarks: Meeseeks (FI multi-turnos) e VitaBench (cenário de negócios do mundo real).
> Muitos detalhes na infra / inferência com informações sobre aceitação de decodificação especulativa, quantização, implantação, otimização do kernel, sobreposição de coms, etc.
> Lista dos diferentes artigos relevantes no tópico 🧵

10,67K
Melhores
Classificação
Favoritos