Величезне відкриття інфраструктури від засновника @_xjdr. XJDR — це божевільний науковець, тому мені знадобилося кілька разів, щоб це зрозуміти (і я досі думаю, що, мабуть, не повністю розумію потенціал) Він повністю переписує навчальний стек для моделей Mixture of Experts MoE (архітектура DeepSeek) для дослідників з обмеженими обчисленнями (тобто світ поза гіперскейлерами) Зазвичай навчання таких розріджених моделей вимагає величезних кластерів і є дуже нестабільним. XJDR створив новий стек з нуля, щоб зробити його ефективним навіть на одному вузлі Стандартна інфраструктура: Потрібен масивний кластер GPU (часто нестабільний) Стек XJDR: передбачуване масштабування на одному GPU до 8 вузлів GPU. Нюанс тут у тому, що замість того, щоб покладатися на грубі обчислення для згладжування помилок, він вирішив конкретні інженерні вузькі місця, як-от колапс маршрутизатора, щоб зробити змішане точне навчання стабільним на малому обладнанні. Він також створив конвеєр даних передового рівня, де 120B оракульні моделі оцінюють дані, щоб менші моделі навчалися швидше. Коротко: він відкриває всі фабричні репозиторії, інструменти даних і ваги, щоб демократизувати дослідницькі можливості рівня Google для окремої особи. Вітаю @_xjdr. Ми надзвичайно раді бути маленькою частиною вашої подорожі. З упевненістю можу сказати, що я неймовірно радий, що ви можете поділитися своєю роботою