Com nmoe, finalmente sinto que a minha experiência em pytorch, cuda, CuteDSL e b200s corresponde à minha antiga experiência em Jax, pallas, mosaic e TPU v4. Demorou quase 2 anos para conseguir.
Resumo: com o repositório nmoe e a arquitetura:
Posso realizar o treinamento de um modelo nativo de 16B de parâmetros nvfp4 em um único nó 8xB200 e posso fazer uma execução de treinamento completa (~7T tokens) em menos de 128 GPUs em ~30 dias (incluindo o pipeline de dados).
Projetando, isso significa que eu poderia teoricamente realizar uma execução de treinamento completa do deepseek-V3 em um único GB300 NVL72 em menos de 90 dias.
para todos vocês que estão a descarregar nmoe e depois a perguntar ao claude "o que é isto?", certifiquem-se de que o leem no repositório antes de fazer qualquer outra coisa