Att effektivt träna massiva Mixture-of-Experts (MoE)-modeller som DeepSeek-V3 och Llama 4-Scout är en av utmaningarna inom modern AI. Dessa modeller pressar GPU:er, nätverk och kompilatorer till sina gränser. För att hantera detta gick AMD och Metas PyTorch-team samman för att finjustera TorchTitan och Primus-Turbo, AMD:s öppna källkodskärnbibliotek, för de nya Instinct MI325X-GPU:erna. Tillsammans nådde de nästan ideal skalning över 1 024 GPU:er, vilket visar att effektivitet och skala inte behöver vara en kompromiss. 📎 Läs vår senaste blogg: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE