Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Perché addestrare MoEs è così difficile
recentemente, mi sono trovato a voler un piccolo repository di addestramento focalizzato sulla ricerca
su cui poter fare esperimenti rapidi e facili. questi esperimenti spaziano
dal provare nuove architetture di attenzione (MLA, SWA, NSA, KDA - tutte pluggabili) all'addestramento multi-precisione fino ai più
recenti setup multi ottimizzatore con ottimizzatori "nuovi". ho provato i 3 principali
contendenti (Nemo, Megatron e Torchtitan) ma per molti e vari motivi non
si adattavano affatto ai miei scopi e sono stati tutti piuttosto dolorosi da
configurare, usare e far funzionare in modo stabile. Mi è mancato ancora una volta il mio strumento di google
e riscrivere il mio stack di addestramento di produzione per questo scopo (che è su misura
per il monitoraggio e la stabilità delle grandi infrastrutture) sembrava anche una cattiva
uso del tempo e avrebbe reso sia il vecchio che il nuovo repository peggiori.
Questo mi ha fatto però riflettere, perché era così difficile addestrare MoEs di qualità 'frontier' 'piccole'
(diciamo sotto i 20B di parametri totali)? perché il repository/lib che
volevo non esisteva già? Dopo averci pensato un po', la maggior parte delle
sfide che sono riuscito a trovare si riduceva a 3 cose diverse:
- flops / efficienza dei flop
- bilanciamento del carico / stabilità del router
- qualità e quantità dei dati
Flops
addestrare modelli densi è piuttosto semplice al giorno d'oggi. le dinamiche di addestramento
sono per lo più accoppiate, e se hai abbastanza parametri nell'architettura,
il modello imparerà praticamente nonostante i tuoi molti errori (questo mi ha morso nel
sedere più di una volta). [DeepSeek-style ultra-sparse]( MoEs sono diversi perché le tue dinamiche di addestramento sono
in qualche modo decouple. Solo una parte dei tuoi MLP sono attivi per un dato token,
e man mano che l'addestramento procede, gli esperti attivi cambiano ed evolvono nel tempo. questo è
ciò che rende l'addestramento multi-epoca e la riformulazione dei dati così efficaci per i MoEs
(soprattutto quelli più grandi). Ottieni grandi guadagni di efficienza in inferenza e piccoli...

Principali
Ranking
Preferiti
