# De ce este atât de greu să-l antrenezi pe MoEs Recent, am descoperit că îmi doresc un depozit mic, axat pe cercetare, pentru antrenament Pe care pot face experimente mici rapid și ușor. Aceste experimente variază De la testarea unor noi arhitecturi de atenție (MLA, SWA, NSA, KDA - toate plugable) până la antrenamente multi-precizie pentru majoritatea Recent, configurații multi-optimizatoare cu optimizatoare "noi". Am încercat cele 3 specializări concurenți (Nemo, Megatron și Torchtitan), dar din multe și diverse motive ei Nu se potriveau deloc pentru scopurile mele și au fost destul de dureroase Configurează, folosește-l și pune în funcțiune stabil. Din nou mi-a lipsit uneltele de pe Google și rescriu stack-ul de antrenament de producție pentru acest scop (care este tailor făcută pentru monitorizare și stabilitate a infrastructurii mari) s-a simțit, de asemenea, ca o soluție slabă Consum de timp și ar înrăutăți atât vechiul, cât și noul depozit. Totuși, asta m-a făcut să mă întreb: de ce antrenamentul de calitate frontieră era "destul de mic" MoE-uri (să zicem sub 20 miliarde parametri în total) sunt atât de dificile? De ce nu a făcut repo / lib i dorit deja există? După ce m-am gândit o vreme, majoritatea Provocările la care mă puteam gândi s-au redus la 3 lucruri diferite: - flops / eficiență flop - echilibrarea sarcinii / stabilitatea routerului - calitatea și cantitatea datelor Flops Antrenarea modelelor dense este destul de simplă în zilele noastre. Antrenamentul Dinamica este în mare parte cuplată, iar dacă ai suficienți parametri în arhitectură, Modelul va învăța practic în ciuda multor greșeli ale tale (asta m-a mușcat fundul de mai multe ori). [Ultra-spars în stil DeepSeek]( MoE-urile sunt diferite pentru că dinamica ta de antrenament este oarecum decuplat. Doar o parte din MLP-urile tale sunt active pentru un anumit token, Iar pe măsură ce instruirea avansează, experții activi se schimbă și evoluează în timp. Aceasta este ce face ca antrenamentul multi-epoch și reformularea datelor să fie atât de eficiente pentru MoE (mai ales cele mai mari). Obții câștiguri mari de eficiență de inferență și mici...