Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Proč je trénink MoE tak těžký
Nedávno jsem zjistil, že chci malý, výzkumně zaměřený školící repozitorij
Na kterých mohu dělat malé experimenty rychle a snadno. Tyto experimenty se liší
od zkoušení nových architektur pozornosti (MLA, SWA, NSA, KDA – vše lze zapojit) až po vícepřesný trénink pro většinu lidí
Nedávno se objevily multi optimalizátory s "novými" optimalizátory. Zkoušel jsem tři hlavní
Nemo, Megatron a Torchtitan), ale z mnoha důvodů
Vůbec to nevyhovovalo mým účelům a bylo to dost bolestivé
Nastavit, používat a stabilně běžet. Opět jsem minul své nástroje z Googlu
a přepisovat svůj produkční tréninkový stack pro tento účel (který je na míru
Vytvořené pro monitorování a stabilitu velké infrastruktury) také působilo jako špatný
To by znamenalo využití času a zhoršilo by to jak staré, tak nové repozitáře.
To mě ale přimělo přemýšlet, proč je kvalita tréninku na hranici "menší"
MoEs (například parametry pod 20B) jsou tak těžké? Proč repozitář / lib nejsem
chtěl už existovat? Po chvíli přemýšlení většina
Výzvy, které jsem dokázal vymyslet, se zúžily na tři různé věci:
- flopová / flopová efektivita
- vyvažování zátěže / stabilita routeru
- kvalita a množství dat
Propadne
Trénování hustých modelů je dnes docela jednoduché. Výcvik
Dynamika je většinou propojená, a pokud máte v architektuře dostatek parametrů,
Model se naučí i přes vaše četné chyby (to mě opravdu zasáhlo
zadek víc než jednou). [DeepSeek styl ultra-řídký](MoE jsou jiné, protože vaše tréninková dynamika je
poněkud oddělené. Pouze část vašich MLP je aktivní pro daný token,
A jak pokračuje výcvik, aktivní experti se v průběhu času mění a vyvíjejí. Tohle je
co dělá víceepochální trénink a přeformulování dat tak efektivními pro MoEs
(zejména větší). Získáte velké a malé výsledky v efektivitě inferencí...

Top
Hodnocení
Oblíbené
