Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Waarom het trainen van MoEs zo moeilijk is
Onlangs merkte ik dat ik een kleine, onderzoeksgerichte trainingsrepo wilde
waarop ik snel en eenvoudig kleine experimenten kon uitvoeren. Deze experimenten variëren
van het uitproberen van nieuwe aandachtarchitecturen (MLA, SWA, NSA, KDA - allemaal inplugbaar) tot multi-precisie training tot meest
recentelijk multi-optimizer setups met 'nieuwe' optimalisatoren. Ik heb de 3 belangrijkste
concurrenten (Nemo, Megatron en Torchtitan) geprobeerd, maar om verschillende redenen
pasten ze totaal niet bij mijn doeleinden en waren ze allemaal behoorlijk pijnlijk om
in te stellen, te gebruiken en stabiel te laten draaien. Ik miste opnieuw mijn tooling van Google
en het herschrijven van mijn productie trainingsstack voor dit doel (dat speciaal
is gemaakt voor grote infrastructuurmonitoring en stabiliteit) voelde ook als een slechte
gebruik van tijd en zou zowel de oude als de nieuwe repo slechter maken.
Dit deed me echter nadenken, waarom was het zo moeilijk om frontier-kwaliteit 'kleinere'
MoEs (zeg onder de 20B parameters totaal) te trainen? Waarom bestond de repo / lib die ik
wilde nog niet? Na er een tijdje over nagedacht te hebben, kwamen de meeste van de
uitdagingen die ik kon bedenken neer op 3 verschillende dingen:
- flops / flop efficiëntie
- load balancing / router stabiliteit
- datakwaliteit en -hoeveelheid
Flops
Het trainen van dichte modellen is tegenwoordig vrij eenvoudig. De trainingsdynamiek
is meestal gekoppeld, en als je genoeg parameters in de architectuur hebt,
zult het model vrijwel leren ondanks je vele fouten (dit heeft me meer dan eens in de problemen gebracht). [DeepSeek-stijl ultra-sparse]( MoEs zijn anders omdat je trainingsdynamiek
enigszins ontkoppeld zijn. Slechts een deel van je MLP's is actief voor een gegeven token,
en naarmate de training vordert, veranderen en evolueren de actieve experts in de loop van de tijd. Dit is
wat multi-epoch training en dataherformulering zo effectief maakt voor MoEs
(vooral grotere). Je krijgt grote efficiëntiewinst bij inferentie en kleine
trainingsefficiëntiewinst, maar ten koste van ontkoppelde trainingsdynamiek (maakt...

Boven
Positie
Favorieten
