Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Чому тренувати MoEs так важко
Останнім часом я зрозумів, що шукаю невеликий, орієнтований на дослідження навчальний репозиторій
Я можу швидко і легко проводити невеликі експерименти. Ці експерименти охоплюють
від випробування нових архітектур уваги (MLA, SWA, NSA, KDA — усі підключаються) до багатоточного навчання до більшості
Нещодавно налаштували мульти-оптимізатори з «новими» оптимізаторами. Я пробував 3 спеціальності
претендентів (Немо, Мегатрон і Торхтитан), але з багатьох причин вони
Це зовсім не відповідало моїм цілям і було досить боляче
Налаштуй, використовуй і запускай стабільно. Я знову пропустив свої інструменти з Google
і переписав свій стек з виробничого навчання для цієї мети (який є Tailor
створений для моніторингу та стабільності великої інфраструктури) також відчувався як поганий
використання часу і погіршило б стан і старого, і нового репозиторія.
Однак це змусило мене задуматися, чому якість навчання Frontier була «меншою»
MoE (скажімо, менше 20B параметрів) такі складні? Чому репо / ліб не
хочеш вже існувати? Після деяких роздумів, більшість
Виклики, які я міг придумати, зводилися до трьох різних речей:
- ефективність флопів / флопів
- балансування навантаження / стабільність маршрутизатора
- якість і кількість даних
Флоп
Тренування щільних моделей зараз досить просто. Навчання
Динаміка здебільшого пов'язана, і якщо в архітектурі достатньо параметрів,
Модель фактично навчиться, незважаючи на ваші численні помилки (це мене сильно зачепило)
Дупа не раз). [DeepSeek-стиль ультра-стримано]( MoE відрізняються через динаміку тренувань
дещо відокремлені. Лише частина ваших MLP активна для певного токена,
І в міру навчання активні експерти змінюються і розвиваються з часом. це
що робить багатоепохічне навчання та перефразування даних такими ефективними для MoEs
(особливо більші). Ви отримуєте великі перемоги з ефективністю виведення і малі...

Найкращі
Рейтинг
Вибране
