Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Warum das Training von MoEs so schwierig ist
Kürzlich habe ich festgestellt, dass ich ein kleines, forschungsorientiertes Trainings-Repo möchte,
das ich schnell und einfach für kleine Experimente nutzen kann. Diese Experimente reichen
von dem Ausprobieren neuer Aufmerksamkeitsarchitekturen (MLA, SWA, NSA, KDA - alle steckbar) über Multi-Präzisions-Training bis hin zu den
neueren Multi-Optimierer-Setups mit 'neuen' Optimierern. Ich habe die 3 großen
Kandidaten (Nemo, Megatron und Torchtitan) ausprobiert, aber aus vielen und verschiedenen Gründen
passten sie überhaupt nicht zu meinen Zwecken und waren alle ziemlich schmerzhaft zu
installieren, zu verwenden und stabil zum Laufen zu bringen. Ich habe erneut mein Werkzeug von Google vermisst
und das Neuschreiben meines Produktions-Trainingsstacks für diesen Zweck (der maßgeschneidert
ist für großes Infrastruktur-Monitoring und Stabilität) fühlte sich auch wie eine schlechte
Nutzung der Zeit an und würde sowohl das alte als auch das neue Repo verschlechtern.
Das hat mich jedoch zum Nachdenken gebracht, warum das Training von MoEs mit
'Frontier-Qualität' (sagen wir unter 20B Parametern insgesamt) so schwierig war? Warum existierte das Repo / die Bibliothek, die ich
wollte, nicht bereits? Nach einigem Nachdenken kam ich zu dem Schluss, dass die meisten der
Herausforderungen auf 3 verschiedene Dinge zurückzuführen sind:
- Flops / Flop-Effizienz
- Lastenausgleich / Router-Stabilität
- Datenqualität und -quantität
Flops
Das Training dichter Modelle ist heutzutage ziemlich einfach. Die Trainingsdynamik ist
meist gekoppelt, und wenn du genug Parameter in der Architektur hast,
wird das Modell trotz deiner vielen Fehler ziemlich gut lernen (das hat mich mehr als einmal
gebissen). [DeepSeek-Stil ultra-sparsame]( MoEs sind anders, weil deine Trainingsdynamik
irgendwie entkoppelt ist. Nur ein Teil deiner MLPs ist für ein bestimmtes Token aktiv,
und im Laufe des Trainings ändern und entwickeln sich die aktiven Experten im Laufe der Zeit. Das ist
das, was Multi-Epochen-Training und Datenumformulierung so effektiv für MoEs macht
(insbesondere größere). Du erhältst große Effizienzgewinne bei der Inferenz und kleine...

Top
Ranking
Favoriten
