Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ogromne odblokowanie infrastruktury przez założyciela @_xjdr.
XJDR to szalony naukowiec, więc zajęło mi to kilka razy, aby zrozumieć (i wciąż myślę, że prawdopodobnie nie rozumiem w pełni potencjału)
Całkowicie przepisuje stos szkoleniowy dla modeli Mixture of Experts MoE (architektura stojąca za DeepSeek) dla badaczy z ograniczonymi zasobami obliczeniowymi (tj. świat poza hiperskalowcami)
Normalnie szkolenie tych rzadkich modeli wymaga ogromnych klastrów i jest bardzo niestabilne. XJDR zbudował nowy stos od podstaw, aby uczynić go wydajnym na tak mało jak jeden węzeł
Standardowa infrastruktura: Wymaga ogromnych klastrów GPU (często niestabilnych)
Stos XJDR: Przewidywalne skalowanie na pojedynczym GPU do 8 węzłów GPU.
Niuansem tutaj jest to, że zamiast polegać na obliczeniach siłowych, aby wygładzić błędy, rozwiązał konkretne wąskie gardła inżynieryjne, takie jak zapadanie się routerów, aby uczynić szkolenie z mieszanym precyzyjnym stabilnym na małym sprzęcie.
Zbudował również pipeline danych na poziomie granicznym, w którym 120B modeli oracle ocenia dane, aby zapewnić, że mniejsze modele uczą się szybciej.
TLDR: Udostępnia całe repozytoria fabryczne, narzędzia do danych i wagi, aby zdemokratyzować możliwości badawcze na poziomie Google dla jednostki.
Gratulacje @_xjdr. Jesteśmy niezwykle podekscytowani, że możemy być małą częścią twojej podróży. Bezpiecznie powiedzieć, że jesteśmy niesamowicie podekscytowani, abyś podzielił się swoją pracą.
Najlepsze
Ranking
Ulubione
