Эффективная тренировка массивных моделей Mixture-of-Experts (MoE), таких как DeepSeek-V3 и Llama 4-Scout, является одной из задач современного ИИ. Эти модели доводят до предела возможности GPU, сетей и компиляторов. Чтобы справиться с этим, команды PyTorch от AMD и Meta объединили усилия для настройки TorchTitan и Primus-Turbo, открытой библиотеке ядра AMD, для новых GPU Instinct MI325X. Вместе они достигли почти идеального масштабирования на 1,024 GPU, показывая, что эффективность и масштаб не обязательно должны быть компромиссом. 📎 Читайте наш последний блог: #PyTorchFoundation #OpenSourceAI #TorchTitan #MoE