Treinar modelos massivos de Mixture-of-Experts (MoE) como o DeepSeek-V3 e o Llama 4-Scout de forma eficiente é um dos desafios da IA moderna. Estes modelos levam GPUs, redes e compiladores ao seu limite. Para enfrentar isso, as equipas da AMD e da Meta em PyTorch uniram forças para ajustar o TorchTitan e o Primus-Turbo, a biblioteca de kernel de código aberto da AMD, para as novas GPUs Instinct MI325X. Juntas, alcançaram uma escalabilidade quase ideal em 1.024 GPUs, mostrando que eficiência e escala não precisam ser um compromisso. 📎 Leia nosso último blog: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE