Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parlando di addestramento distribuito dell'AI, ho notato che le persone nel cerchio web2AI tendono a etichettarlo come un "falso problema", con la motivazione che i dispositivi di calcolo possono essere aggregati, ma la collaborazione distribuita efficace comporta costi di larghezza di banda spaventosi? E @0G_labs ha recentemente pubblicato il documento DiLoCox, il cui obiettivo sembra essere quello di risolvere questo problema? Parliamone in dettaglio:
1) Iniziamo col dire perché l'addestramento distribuito è considerato un "falso problema". Il conflitto centrale è molto semplice: vuoi sostituire 100 GPU economiche con 100 A100 aggregando, sembrerebbe che tu stia risparmiando il 90% dei costi hardware, ma queste 100 GPU devono mantenere un addestramento sincronizzato, e ogni epoca deve scambiare dati di gradiente di TB.
Le soluzioni tradizionali richiedono una larghezza di banda dedicata di 100Gbps, e per raggiungere una rete di livello data center di 100Gbps, l'affitto mensile può arrivare a decine di migliaia di dollari. Facendo i conti, i soldi risparmiati per le GPU vengono spesi tutti in larghezza di banda, e potresti anche finire in perdita. Secondo questa logica, hai risparmiato sui costi delle macchine ma hai generato costi di larghezza di banda, il che significa che non hai risolto il problema? Ecco perché è stato criticato come un falso problema.
2) Il motivo per cui il documento DiLoCoX di 0G ha attirato attenzione è che affermano di aver addestrato un modello di 107B parametri su una rete di 1Gbps (larghezza di banda di un normale ufficio), con una velocità 357 volte superiore rispetto alla tradizionale soluzione AllReduce. Questo numero è davvero esplosivo—bisogna sapere che 1Gbps contro 100Gbps, la larghezza di banda differisce di 100 volte, ma la velocità di addestramento è aumentata di 357 volte?
Come ci sono riusciti? Ho fatto una ricerca e ho scoperto che questa soluzione ha implementato quattro ottimizzazioni:
Pipeline Parallelism per elaborare i segmenti del modello;
Dual Optimizer Policy per ridurre la frequenza di sincronizzazione;
One-Step-Delay Overlap per far sì che comunicazione e calcolo siano paralleli senza aspettarsi a vicenda;
Adaptive Gradient Compression per comprimere intelligentemente i gradienti.
In termini semplici, hanno cambiato il requisito di "sincronizzazione forte in tempo reale" in "sincronizzazione debole asincrona", e "trasferimento di dati completo" in "trasferimento incrementale compresso".
Per fare un paragone, la soluzione tradizionale è come una videoconferenza in tempo reale con 100 persone, dove ogni azione di ciascuno deve essere trasmessa in diretta, mentre DiLoCoX è come se ognuno registrasse il proprio video e poi inviasse solo i fotogrammi chiave e le parti che cambiano. Il volume di comunicazione è diminuito di 100 volte, ma la completezza delle informazioni rimane oltre il 99%.
Perché questo approccio è fattibile? A mio avviso, il punto centrale è che hanno colto una caratteristica dell'addestramento dell'AI—la tolleranza agli errori. L'addestramento di un modello non è come un trasferimento di denaro, dove anche un centesimo di errore non è accettabile. Un po' di errore nell'aggiornamento del gradiente o un po' di ritardo nella sincronizzazione hanno un impatto trascurabile sul risultato finale del modello.
DiLoCoX sfrutta questo "spazio di tolleranza", accettando una perdita di precisione accettabile in cambio di un aumento dell'efficienza di un ordine di grandezza. Questo è un tipico pensiero ingegneristico—non cercare la perfezione, ma il miglior rapporto qualità-prezzo.
3) Ma risolvere solo il problema della larghezza di banda non è sufficiente, l'ambizione di 0G è chiaramente più grande. Guardando la loro architettura complessiva, è chiaro: hanno anche un livello di Storage a $10/TB che dichiara di schiacciare Filecoin, e il livello DA è progettato specificamente per l'AI, realizzando una capacità di throughput di GB.
Il motivo per cui possono realizzare un design di archiviazione 100 volte più economico è che hanno fatto ottimizzazioni speciali per gli scenari di addestramento dell'AI, ad esempio, i checkpoint e i log generati durante il processo di addestramento, che sono dati di TB, hanno un ciclo di vita di pochi giorni e non necessitano di una "memoria permanente" rigorosa.
Quindi, in realtà, hanno adottato una soluzione pragmatica di "archiviazione a livelli", fornendo solo il livello di servizio appropriato quando necessario—dati caldi letti e scritti rapidamente ma costosi, dati freddi economici ma lenti, e dati temporanei eliminati dopo l'uso, i più economici.
E, proprio questa differenziazione dei prezzi colpisce direttamente il cuore dell'addestramento dell'AI.
In sintesi, è chiaro che 0G Labs ha intenzionalmente adattato i problemi di potenza di calcolo, archiviazione e circolazione dei dati nel processo di addestramento dell'AI. Anche il meccanismo di consenso è stato ottimizzato per l'AI. Utilizzano una versione migliorata di CometBFT, con oltre 2500 TPS e finalità sub-secondo, ottimizzata per le caratteristiche asincrone del carico di lavoro dell'AI, ecc.
In altre parole, 0G non sta "aggiustando" la blockchain esistente per supportare l'AI, ma ha progettato da zero un'infrastruttura "nativa per l'AI". Riguardo alla possibilità di ottenere una validazione commerciale a livello applicativo sotto la pressione della concorrenza con l'AI tradizionale, dovremo continuare a osservare, ma questo approccio differenziato è sicuramente degno di nota.
4,94K
Principali
Ranking
Preferiti