Entrenar modelos masivos de Mixture-of-Experts (MoE) como DeepSeek-V3 y Llama 4-Scout de manera eficiente es uno de los desafíos en la IA moderna. Estos modelos llevan a los GPUs, redes y compiladores a sus límites. Para abordar esto, los equipos de PyTorch de AMD y Meta se unieron para ajustar TorchTitan y Primus-Turbo, la biblioteca de núcleo de código abierto de AMD, para los nuevos GPUs Instinct MI325X. Juntos, lograron una escalabilidad casi ideal en 1,024 GPUs, demostrando que la eficiencia y la escala no tienen que ser un compromiso. 📎 Lee nuestro último blog: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE