# Dlaczego trenowanie MoEs jest tak trudne Ostatnio zauważyłem, że chcę mieć małe, skoncentrowane na badaniach repozytorium treningowe, na którym mogę szybko i łatwo przeprowadzać małe eksperymenty. Eksperymenty te obejmują wypróbowanie nowych architektur uwagi (MLA, SWA, NSA, KDA - wszystkie wymienne) do treningu wieloprecyzyjnego, a ostatnio do konfiguracji z wieloma optymalizatorami z 'nowymi' optymalizatorami. Próbowałem 3 głównych kandydatów (Nemo, Megatron i Torchtitan), ale z wielu różnych powodów nie pasowały one do moich potrzeb i były dość bolesne w konfiguracji, używaniu i uzyskaniu stabilnego działania. Po raz kolejny tęskniłem za moimi narzędziami z Google i przepisanie mojego produkcyjnego stosu treningowego w tym celu (który jest dostosowany specjalnie do monitorowania dużej infrastruktury i stabilności) również wydawało się złym wykorzystaniem czasu i pogorszyłoby zarówno stare, jak i nowe repozytorium. To jednak skłoniło mnie do myślenia, dlaczego trenowanie MoEs o jakości granicznej 'małych' (na przykład poniżej 20B parametrów) jest tak trudne? Dlaczego repozytorium / biblioteka, której chciałem, nie istniała już? Po dłuższym zastanowieniu się, większość wyzwań, które mogłem wymyślić, sprowadzała się do 3 różnych rzeczy: - flopy / efektywność flopów - równoważenie obciążenia / stabilność routera - jakość i ilość danych Flopy Trenowanie gęstych modeli jest obecnie dość proste. Dynamika treningu jest w większości sprzężona, a jeśli masz wystarczającą liczbę parametrów w architekturze, model nauczy się praktycznie mimo wielu błędów (to mnie już nie raz ugryzło w tyłek). [Ultra-rzadkie style DeepSeek]( MoEs są inne, ponieważ twoja dynamika treningu jest w pewnym stopniu odsprzężona. Tylko część twoich MLP jest aktywna dla danego tokena, a w miarę postępu treningu aktywni eksperci zmieniają się i ewoluują w czasie. To sprawia, że wieloepokowe trenowanie i przekształcanie danych są tak skuteczne dla MoEs (zwłaszcza większych). Uzyskujesz duże zyski w efektywności wnioskowania i małe zyski w efektywności treningu, ale kosztem odsprzężonej dynamiki treningu (co utrudnia...