高效训练大规模的专家混合模型(MoE),如DeepSeek-V3和Llama 4-Scout,是现代人工智能面临的挑战之一。这些模型将GPU、网络和编译器推向极限。 为了解决这个问题,AMD和Meta的PyTorch团队联手调优TorchTitan和Primus-Turbo,AMD的开源内核库,以适配新的Instinct MI325X GPU。通过合作,他们在1,024个GPU上达到了接近理想的扩展性,证明了效率和规模并不一定是权衡关系。 📎 阅读我们的最新博客: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE