Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Масштабная открытая модель обучения, разблокированная @_xjdr
XJDR — это безумный ученый, поэтому мне потребовалось несколько попыток, чтобы действительно понять это, и я все еще могу не полностью оценить весь результат.
Обычно, если вы хотите обучить совершенно новую базовую модель с нуля, вам нужно много GPU, чтобы запустить серьезный процесс обучения. Это дорого.
Одним из самых сложных типов для обучения является дизайн Mixture of Experts в стиле DeepSeek. Он мощный, но система маршрутизации и настройка обучения настолько капризны, что маломасштабные тесты часто разваливаются. Поэтому вам в конечном итоге нужен большой кластер, чтобы что-то узнать, и когда процесс обучения терпит неудачу, вы не можете сказать, была ли ваша идея неправильной или просто произошел сбой в настройке, так что исследование останавливается, и вы ничего не узнаете.
XJDR открывает исходный код nmoe, готовой к запуску фабрики обучения, настроенной так, как это сделал бы эксперт, специально для того, чтобы этот класс моделей можно было обучать и исследовать на одной машине без постоянных сбоев. Малые эксперименты ведут себя как реальное обучение, так что вы можете получить четкий ответ «да» или «нет», прежде чем потратить восемь цифр и месяцы времени.
На самом деле люди могут проводить дешевые, быстрые испытания, меняя по одному параметру за раз, например, как работают маршруты модели между специалистами, как она обучается (рецепт обучения), какие данные вы ей подаете и как вы получаете больше качества за доллар. Вы, по сути, проводите стресс-тестирование новых идей для лучших базовых моделей так же, как вы бы проводили A/B тестирование продукта, но вы можете делать это вне большой лаборатории.
Чистый эффект — это более быстрая итерация и значительная экономия средств, плюс больше команд могут реально создавать новые базовые модели. Это может означать лучшую модель класса DeepSeek, совершенно новые модели в стиле специалистов и гораздо больше конкуренции и открытых исследований, потому что входной барьер резко снижается, и больше прорывов происходит на публике.
Следите за новостями, он открывает большинство из этого!
Поздравляем @_xjdr. Мы очень рады поддержать вас и быть небольшой частью вашей истории.
Топ
Рейтинг
Избранное
