Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# De ce este atât de greu să-l antrenezi pe MoEs
Recent, am descoperit că îmi doresc un depozit mic, axat pe cercetare, pentru antrenament
Pe care pot face experimente mici rapid și ușor. Aceste experimente variază
De la testarea unor noi arhitecturi de atenție (MLA, SWA, NSA, KDA - toate plugable) până la antrenamente multi-precizie pentru majoritatea
Recent, configurații multi-optimizatoare cu optimizatoare "noi". Am încercat cele 3 specializări
concurenți (Nemo, Megatron și Torchtitan), dar din multe și diverse motive ei
Nu se potriveau deloc pentru scopurile mele și au fost destul de dureroase
Configurează, folosește-l și pune în funcțiune stabil. Din nou mi-a lipsit uneltele de pe Google
și rescriu stack-ul de antrenament de producție pentru acest scop (care este tailor
făcută pentru monitorizare și stabilitate a infrastructurii mari) s-a simțit, de asemenea, ca o soluție slabă
Consum de timp și ar înrăutăți atât vechiul, cât și noul depozit.
Totuși, asta m-a făcut să mă întreb: de ce antrenamentul de calitate frontieră era "destul de mic"
MoE-uri (să zicem sub 20 miliarde parametri în total) sunt atât de dificile? De ce nu a făcut repo / lib i
dorit deja există? După ce m-am gândit o vreme, majoritatea
Provocările la care mă puteam gândi s-au redus la 3 lucruri diferite:
- flops / eficiență flop
- echilibrarea sarcinii / stabilitatea routerului
- calitatea și cantitatea datelor
Flops
Antrenarea modelelor dense este destul de simplă în zilele noastre. Antrenamentul
Dinamica este în mare parte cuplată, iar dacă ai suficienți parametri în arhitectură,
Modelul va învăța practic în ciuda multor greșeli ale tale (asta m-a mușcat
fundul de mai multe ori). [Ultra-spars în stil DeepSeek]( MoE-urile sunt diferite pentru că dinamica ta de antrenament este
oarecum decuplat. Doar o parte din MLP-urile tale sunt active pentru un anumit token,
Iar pe măsură ce instruirea avansează, experții activi se schimbă și evoluează în timp. Aceasta este
ce face ca antrenamentul multi-epoch și reformularea datelor să fie atât de eficiente pentru MoE
(mai ales cele mai mari). Obții câștiguri mari de eficiență de inferență și mici...

Limită superioară
Clasament
Favorite
