# Чому тренувати MoEs так важко Останнім часом я зрозумів, що шукаю невеликий, орієнтований на дослідження навчальний репозиторій Я можу швидко і легко проводити невеликі експерименти. Ці експерименти охоплюють від випробування нових архітектур уваги (MLA, SWA, NSA, KDA — усі підключаються) до багатоточного навчання до більшості Нещодавно налаштували мульти-оптимізатори з «новими» оптимізаторами. Я пробував 3 спеціальності претендентів (Немо, Мегатрон і Торхтитан), але з багатьох причин вони Це зовсім не відповідало моїм цілям і було досить боляче Налаштуй, використовуй і запускай стабільно. Я знову пропустив свої інструменти з Google і переписав свій стек з виробничого навчання для цієї мети (який є Tailor створений для моніторингу та стабільності великої інфраструктури) також відчувався як поганий використання часу і погіршило б стан і старого, і нового репозиторія. Однак це змусило мене задуматися, чому якість навчання Frontier була «меншою» MoE (скажімо, менше 20B параметрів) такі складні? Чому репо / ліб не хочеш вже існувати? Після деяких роздумів, більшість Виклики, які я міг придумати, зводилися до трьох різних речей: - ефективність флопів / флопів - балансування навантаження / стабільність маршрутизатора - якість і кількість даних Флоп Тренування щільних моделей зараз досить просто. Навчання Динаміка здебільшого пов'язана, і якщо в архітектурі достатньо параметрів, Модель фактично навчиться, незважаючи на ваші численні помилки (це мене сильно зачепило) Дупа не раз). [DeepSeek-стиль ультра-стримано]( MoE відрізняються через динаміку тренувань дещо відокремлені. Лише частина ваших MLP активна для певного токена, І в міру навчання активні експерти змінюються і розвиваються з часом. це що робить багатоепохічне навчання та перефразування даних такими ефективними для MoEs (особливо більші). Ви отримуєте великі перемоги з ефективністю виведення і малі...