# Waarom het trainen van MoEs zo moeilijk is Onlangs merkte ik dat ik een kleine, onderzoeksgerichte trainingsrepo wilde waarop ik snel en eenvoudig kleine experimenten kon uitvoeren. Deze experimenten variëren van het uitproberen van nieuwe aandachtarchitecturen (MLA, SWA, NSA, KDA - allemaal inplugbaar) tot multi-precisie training tot meest recentelijk multi-optimizer setups met 'nieuwe' optimalisatoren. Ik heb de 3 belangrijkste concurrenten (Nemo, Megatron en Torchtitan) geprobeerd, maar om verschillende redenen pasten ze totaal niet bij mijn doeleinden en waren ze allemaal behoorlijk pijnlijk om in te stellen, te gebruiken en stabiel te laten draaien. Ik miste opnieuw mijn tooling van Google en het herschrijven van mijn productie trainingsstack voor dit doel (dat speciaal is gemaakt voor grote infrastructuurmonitoring en stabiliteit) voelde ook als een slechte gebruik van tijd en zou zowel de oude als de nieuwe repo slechter maken. Dit deed me echter nadenken, waarom was het zo moeilijk om frontier-kwaliteit 'kleinere' MoEs (zeg onder de 20B parameters totaal) te trainen? Waarom bestond de repo / lib die ik wilde nog niet? Na er een tijdje over nagedacht te hebben, kwamen de meeste van de uitdagingen die ik kon bedenken neer op 3 verschillende dingen: - flops / flop efficiëntie - load balancing / router stabiliteit - datakwaliteit en -hoeveelheid Flops Het trainen van dichte modellen is tegenwoordig vrij eenvoudig. De trainingsdynamiek is meestal gekoppeld, en als je genoeg parameters in de architectuur hebt, zult het model vrijwel leren ondanks je vele fouten (dit heeft me meer dan eens in de problemen gebracht). [DeepSeek-stijl ultra-sparse]( MoEs zijn anders omdat je trainingsdynamiek enigszins ontkoppeld zijn. Slechts een deel van je MLP's is actief voor een gegeven token, en naarmate de training vordert, veranderen en evolueren de actieve experts in de loop van de tijd. Dit is wat multi-epoch training en dataherformulering zo effectief maakt voor MoEs (vooral grotere). Je krijgt grote efficiëntiewinst bij inferentie en kleine trainingsefficiëntiewinst, maar ten koste van ontkoppelde trainingsdynamiek (maakt...