Addestrare modelli massicci di Mixture-of-Experts (MoE) come DeepSeek-V3 e Llama 4-Scout in modo efficiente è una delle sfide dell'AI moderna. Questi modelli spingono le GPU, le reti e i compilatori ai loro limiti. Per affrontare questo, i team di PyTorch di AMD e Meta hanno unito le forze per ottimizzare TorchTitan e Primus-Turbo, la libreria kernel open source di AMD, per le nuove GPU Instinct MI325X. Insieme, hanno raggiunto una scalabilità quasi ideale su 1.024 GPU, dimostrando che efficienza e scala non devono essere un compromesso. 📎 Leggi il nostro ultimo blog: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE