# Warum das Training von MoEs so schwierig ist Kürzlich habe ich festgestellt, dass ich ein kleines, forschungsorientiertes Trainings-Repo möchte, das ich schnell und einfach für kleine Experimente nutzen kann. Diese Experimente reichen von dem Ausprobieren neuer Aufmerksamkeitsarchitekturen (MLA, SWA, NSA, KDA - alle steckbar) über Multi-Präzisions-Training bis hin zu den neueren Multi-Optimierer-Setups mit 'neuen' Optimierern. Ich habe die 3 großen Kandidaten (Nemo, Megatron und Torchtitan) ausprobiert, aber aus vielen und verschiedenen Gründen passten sie überhaupt nicht zu meinen Zwecken und waren alle ziemlich schmerzhaft zu installieren, zu verwenden und stabil zum Laufen zu bringen. Ich habe erneut mein Werkzeug von Google vermisst und das Neuschreiben meines Produktions-Trainingsstacks für diesen Zweck (der maßgeschneidert ist für großes Infrastruktur-Monitoring und Stabilität) fühlte sich auch wie eine schlechte Nutzung der Zeit an und würde sowohl das alte als auch das neue Repo verschlechtern. Das hat mich jedoch zum Nachdenken gebracht, warum das Training von MoEs mit 'Frontier-Qualität' (sagen wir unter 20B Parametern insgesamt) so schwierig war? Warum existierte das Repo / die Bibliothek, die ich wollte, nicht bereits? Nach einigem Nachdenken kam ich zu dem Schluss, dass die meisten der Herausforderungen auf 3 verschiedene Dinge zurückzuführen sind: - Flops / Flop-Effizienz - Lastenausgleich / Router-Stabilität - Datenqualität und -quantität Flops Das Training dichter Modelle ist heutzutage ziemlich einfach. Die Trainingsdynamik ist meist gekoppelt, und wenn du genug Parameter in der Architektur hast, wird das Modell trotz deiner vielen Fehler ziemlich gut lernen (das hat mich mehr als einmal gebissen). [DeepSeek-Stil ultra-sparsame]( MoEs sind anders, weil deine Trainingsdynamik irgendwie entkoppelt ist. Nur ein Teil deiner MLPs ist für ein bestimmtes Token aktiv, und im Laufe des Trainings ändern und entwickeln sich die aktiven Experten im Laufe der Zeit. Das ist das, was Multi-Epochen-Training und Datenumformulierung so effektiv für MoEs macht (insbesondere größere). Du erhältst große Effizienzgewinne bei der Inferenz und kleine...