Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Dlaczego trenowanie MoEs jest tak trudne
Ostatnio zauważyłem, że chcę mieć małe, skoncentrowane na badaniach repozytorium treningowe,
na którym mogę szybko i łatwo przeprowadzać małe eksperymenty. Eksperymenty te obejmują
wypróbowanie nowych architektur uwagi (MLA, SWA, NSA, KDA - wszystkie wymienne) do treningu wieloprecyzyjnego,
a ostatnio do konfiguracji z wieloma optymalizatorami z 'nowymi' optymalizatorami. Próbowałem 3 głównych
kandydatów (Nemo, Megatron i Torchtitan), ale z wielu różnych powodów
nie pasowały one do moich potrzeb i były dość bolesne w
konfiguracji, używaniu i uzyskaniu stabilnego działania. Po raz kolejny tęskniłem za moimi narzędziami z Google
i przepisanie mojego produkcyjnego stosu treningowego w tym celu (który jest dostosowany
specjalnie do monitorowania dużej infrastruktury i stabilności) również wydawało się złym
wykorzystaniem czasu i pogorszyłoby zarówno stare, jak i nowe repozytorium.
To jednak skłoniło mnie do myślenia, dlaczego trenowanie MoEs o jakości granicznej 'małych'
(na przykład poniżej 20B parametrów) jest tak trudne? Dlaczego repozytorium / biblioteka, której
chciałem, nie istniała już? Po dłuższym zastanowieniu się, większość
wyzwań, które mogłem wymyślić, sprowadzała się do 3 różnych rzeczy:
- flopy / efektywność flopów
- równoważenie obciążenia / stabilność routera
- jakość i ilość danych
Flopy
Trenowanie gęstych modeli jest obecnie dość proste. Dynamika treningu
jest w większości sprzężona, a jeśli masz wystarczającą liczbę parametrów w architekturze,
model nauczy się praktycznie mimo wielu błędów (to mnie już nie raz ugryzło w tyłek). [Ultra-rzadkie style DeepSeek]( MoEs są inne, ponieważ twoja dynamika treningu jest
w pewnym stopniu odsprzężona. Tylko część twoich MLP jest aktywna dla danego tokena,
a w miarę postępu treningu aktywni eksperci zmieniają się i ewoluują w czasie. To
sprawia, że wieloepokowe trenowanie i przekształcanie danych są tak skuteczne dla MoEs
(zwłaszcza większych). Uzyskujesz duże zyski w efektywności wnioskowania i małe
zyski w efektywności treningu, ale kosztem odsprzężonej dynamiki treningu (co utrudnia...

Najlepsze
Ranking
Ulubione
