Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Масштабное открытие инфраструктуры от основателя @_xjdr.
XJDR — безумный ученый, поэтому мне понадобилось несколько раз, чтобы понять это (и я все еще думаю, что, вероятно, не полностью понимаю потенциал).
Он полностью переписывает стек обучения для моделей Mixture of Experts MoE (архитектура за DeepSeek) для исследователей с ограниченными вычислительными ресурсами (т.е. мир за пределами гипермасштаберов).
Обычно обучение этих разреженных моделей требует огромных кластеров и очень нестабильно. XJDR построил новый стек с нуля, чтобы сделать его эффективным на всего лишь одном узле.
Стандартная инфраструктура: требует огромных кластеров GPU (часто нестабильных).
Стек XJDR: предсказуемое масштабирование на одном GPU до 8 узлов GPU.
Суть в том, что вместо того, чтобы полагаться на грубую вычислительную мощность для сглаживания ошибок, он решил конкретные инженерные узкие места, такие как коллапс маршрутизатора, чтобы сделать обучение с смешанной точностью стабильным на небольшом оборудовании.
Он также построил передовую трубопроводную систему данных, где 120B моделей оракулов оценивают данные, чтобы гарантировать, что меньшие модели обучаются быстрее.
Кратко: он открывает исходный код всех репозиториев фабрики, инструментов для работы с данными и весов, чтобы демократизировать исследовательские возможности на уровне Google для каждого.
Поздравляем @_xjdr. Мы безумно рады быть небольшой частью вашего пути. Безусловно, очень рады, что вы поделитесь своей работой.
Топ
Рейтинг
Избранное
