Ogromne odblokowanie infrastruktury przez założyciela @_xjdr. XJDR to szalony naukowiec, więc zajęło mi to kilka razy, aby zrozumieć (i wciąż myślę, że prawdopodobnie nie rozumiem w pełni potencjału) Całkowicie przepisuje stos szkoleniowy dla modeli Mixture of Experts MoE (architektura stojąca za DeepSeek) dla badaczy z ograniczonymi zasobami obliczeniowymi (tj. świat poza hiperskalowcami) Normalnie szkolenie tych rzadkich modeli wymaga ogromnych klastrów i jest bardzo niestabilne. XJDR zbudował nowy stos od podstaw, aby uczynić go wydajnym na tak mało jak jeden węzeł Standardowa infrastruktura: Wymaga ogromnych klastrów GPU (często niestabilnych) Stos XJDR: Przewidywalne skalowanie na pojedynczym GPU do 8 węzłów GPU. Niuansem tutaj jest to, że zamiast polegać na obliczeniach siłowych, aby wygładzić błędy, rozwiązał konkretne wąskie gardła inżynieryjne, takie jak zapadanie się routerów, aby uczynić szkolenie z mieszanym precyzyjnym stabilnym na małym sprzęcie. Zbudował również pipeline danych na poziomie granicznym, w którym 120B modeli oracle ocenia dane, aby zapewnić, że mniejsze modele uczą się szybciej. TLDR: Udostępnia całe repozytoria fabryczne, narzędzia do danych i wagi, aby zdemokratyzować możliwości badawcze na poziomie Google dla jednostki. Gratulacje @_xjdr. Jesteśmy niezwykle podekscytowani, że możemy być małą częścią twojej podróży. Bezpiecznie powiedzieć, że jesteśmy niesamowicie podekscytowani, abyś podzielił się swoją pracą.