Масштабное открытие инфраструктуры от основателя @_xjdr. XJDR — безумный ученый, поэтому мне понадобилось несколько раз, чтобы понять это (и я все еще думаю, что, вероятно, не полностью понимаю потенциал). Он полностью переписывает стек обучения для моделей Mixture of Experts MoE (архитектура за DeepSeek) для исследователей с ограниченными вычислительными ресурсами (т.е. мир за пределами гипермасштаберов). Обычно обучение этих разреженных моделей требует огромных кластеров и очень нестабильно. XJDR построил новый стек с нуля, чтобы сделать его эффективным на всего лишь одном узле. Стандартная инфраструктура: требует огромных кластеров GPU (часто нестабильных). Стек XJDR: предсказуемое масштабирование на одном GPU до 8 узлов GPU. Суть в том, что вместо того, чтобы полагаться на грубую вычислительную мощность для сглаживания ошибок, он решил конкретные инженерные узкие места, такие как коллапс маршрутизатора, чтобы сделать обучение с смешанной точностью стабильным на небольшом оборудовании. Он также построил передовую трубопроводную систему данных, где 120B моделей оракулов оценивают данные, чтобы гарантировать, что меньшие модели обучаются быстрее. Кратко: он открывает исходный код всех репозиториев фабрики, инструментов для работы с данными и весов, чтобы демократизировать исследовательские возможности на уровне Google для каждого. Поздравляем @_xjdr. Мы безумно рады быть небольшой частью вашего пути. Безусловно, очень рады, что вы поделитесь своей работой.