# Proč je trénink MoE tak těžký Nedávno jsem zjistil, že chci malý, výzkumně zaměřený školící repozitorij Na kterých mohu dělat malé experimenty rychle a snadno. Tyto experimenty se liší od zkoušení nových architektur pozornosti (MLA, SWA, NSA, KDA – vše lze zapojit) až po vícepřesný trénink pro většinu lidí Nedávno se objevily multi optimalizátory s "novými" optimalizátory. Zkoušel jsem tři hlavní Nemo, Megatron a Torchtitan), ale z mnoha důvodů Vůbec to nevyhovovalo mým účelům a bylo to dost bolestivé Nastavit, používat a stabilně běžet. Opět jsem minul své nástroje z Googlu a přepisovat svůj produkční tréninkový stack pro tento účel (který je na míru Vytvořené pro monitorování a stabilitu velké infrastruktury) také působilo jako špatný To by znamenalo využití času a zhoršilo by to jak staré, tak nové repozitáře. To mě ale přimělo přemýšlet, proč je kvalita tréninku na hranici "menší" MoEs (například parametry pod 20B) jsou tak těžké? Proč repozitář / lib nejsem chtěl už existovat? Po chvíli přemýšlení většina Výzvy, které jsem dokázal vymyslet, se zúžily na tři různé věci: - flopová / flopová efektivita - vyvažování zátěže / stabilita routeru - kvalita a množství dat Propadne Trénování hustých modelů je dnes docela jednoduché. Výcvik Dynamika je většinou propojená, a pokud máte v architektuře dostatek parametrů, Model se naučí i přes vaše četné chyby (to mě opravdu zasáhlo zadek víc než jednou). [DeepSeek styl ultra-řídký](MoE jsou jiné, protože vaše tréninková dynamika je poněkud oddělené. Pouze část vašich MLP je aktivní pro daný token, A jak pokračuje výcvik, aktivní experti se v průběhu času mění a vyvíjejí. Tohle je co dělá víceepochální trénink a přeformulování dat tak efektivními pro MoEs (zejména větší). Získáte velké a malé výsledky v efektivitě inferencí...