Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Величезне відкриття інфраструктури від засновника @_xjdr.
XJDR — це божевільний науковець, тому мені знадобилося кілька разів, щоб це зрозуміти (і я досі думаю, що, мабуть, не повністю розумію потенціал)
Він повністю переписує навчальний стек для моделей Mixture of Experts MoE (архітектура DeepSeek) для дослідників з обмеженими обчисленнями (тобто світ поза гіперскейлерами)
Зазвичай навчання таких розріджених моделей вимагає величезних кластерів і є дуже нестабільним. XJDR створив новий стек з нуля, щоб зробити його ефективним навіть на одному вузлі
Стандартна інфраструктура: Потрібен масивний кластер GPU (часто нестабільний)
Стек XJDR: передбачуване масштабування на одному GPU до 8 вузлів GPU.
Нюанс тут у тому, що замість того, щоб покладатися на грубі обчислення для згладжування помилок, він вирішив конкретні інженерні вузькі місця, як-от колапс маршрутизатора, щоб зробити змішане точне навчання стабільним на малому обладнанні.
Він також створив конвеєр даних передового рівня, де 120B оракульні моделі оцінюють дані, щоб менші моделі навчалися швидше.
Коротко: він відкриває всі фабричні репозиторії, інструменти даних і ваги, щоб демократизувати дослідницькі можливості рівня Google для окремої особи.
Вітаю @_xjdr. Ми надзвичайно раді бути маленькою частиною вашої подорожі. З упевненістю можу сказати, що я неймовірно радий, що ви можете поділитися своєю роботою
Найкращі
Рейтинг
Вибране
