Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
När det gäller distribuerad AI-träning fann jag att människor i web2AI-kretsen kommer att märka det som ett "falskt förslag", på grund av att datorkraftenheter kan aggregeras, men att det finns fruktansvärda bandbreddskostnader för distribuerat och effektivt samarbete? Och @0G_labs nyligen publicerade en DiLoCox-artikel verkar det som att målet är att lösa detta problem? Låt oss prata om det i detalj:
1) Låt oss prata om varför distribuerad utbildning anses vara ett "falskt påstående". Kärnmotsägelsen är enkel: du vill ersätta 100 A100 genom att aggregera 100 billiga GPU:er, vilket verkar spara 90% av hårdvarukostnaden, men dessa 100 GPU:er måste tränas synkront, och varje epok måste utbyta terabyte av gradientdata.
Traditionella lösningar kräver 100 Gbps dedikerad linjebandbredd, medan det kan kosta hundratusentals dollar per månad att nå ett datacenternätverk på 100 Gbps. Totalt sett spenderas alla GPU-pengar du sparar på bandbredd, och till och med upp och ner. Enligt denna logik betyder det inte att problemet inte har lösts genom att spara kostnaden för maskinen men ådra sig ytterligare bandbreddskostnader? Därför har kruxet med att bli kritiserad som ett falskt påstående alltid funnits här.
2) 0G:s DiLoCoX-artikel väckte uppmärksamhet eftersom de påstod sig träna en 107B-parametermodell på ett 1Gbps-nätverk (normal kontorsbandbredd), vilket är 357 gånger snabbare än det traditionella AllReduce-schemat. Den här siffran är verkligen explosiv - du vet, 1 Gbps vs 100 Gbps, bandbreddsskillnaden är 100 gånger, men träningshastigheten är 357 gånger snabbare?
Hur gör man det? Efter en grov studie fann man att denna uppsättning scheman har gjort fyra optimeringar:
Pipelineparallellitet delar upp modellen i segment.
Dubbel optimeringsprincip: Minskar synkroniseringsfrekvensen med dubbla optimeringsprinciper. One-Step-Delay Overlap gör att kommunikation och databehandling kan köras parallellt utan att vänta på varandra. Adaptive Gradient Compression komprimerar övertoningar på ett intelligent sätt.
I lekmannatermer är det att ändra det ursprungliga som krävs "stark synkronisering i realtid" till "asynkron svag synkronisering" och ändra "full dataöverföring" till "komprimerad inkrementell överföring".
Till exempel, medan traditionella lösningar är som 100-personers videokonferenser i realtid, där varje persons varje åtgärd sänds samtidigt, är DiLoCoX som att alla spelar in separat och sedan bara skickar nyckelbilder och ändringar. Trafikvolymen har minskat med 100 gånger, men informationsintegriteten har legat kvar över 99%.
Varför är detta möjligt? Enligt min mening är kärnan att de fångar en egenskap hos AI-träning - feltolerans. Att träna en modell är inte som en transaktionsöverföring, som inte är ett öre kort. Gradientuppdateringen är lite felaktig, synkroniseringen är försenad och den slutliga modellkonvergenseffekten har liten inverkan.
DiLoCoX använder detta "feltoleransutrymme" för att utbyta acceptabla noggrannhetsförluster mot effektivitetsvinster i storleksordningar. Detta är typiskt ingenjörstänkande - inte att sträva efter perfektion, att sträva efter bästa kostnadsprestanda.
3) Men det räcker inte för att lösa bandbreddsproblemet, 0G är uppenbarligen mer ambitiöst. Titta bara på deras övergripande arkitektur: de har också ett lagringslager på $10/TB som direkt påstår sig krossa Filecoin, och DA-lagret är designat för AI för att uppnå genomströmning på GB-nivå.
Anledningen till att designen kan uppnå lagring 100 gånger billigare är att uttrycka det rakt på sak, det är också en speciell optimering av AI-träningsscenarier, till exempel är livscykeln för kontrollpunkter och loggar som genereras under träningsprocessen bara några dagar, i själva verket finns det inget behov av att strikt uppnå "permanent lagring".
Därför antas i själva verket den pragmatiska lösningen med "nivåindelad lagring", och endast motsvarande servicenivå tillhandahålls vid behov - heta data läses och skrivs snabbt men dyrare, kalla data är billigare men långsammare och tillfälliga data är billigast att ta bort när de är förbrukade.
Och det är denna differentierade prissättning som direkt träffar de viktigaste punkterna i AI-träning.
Över.
Man kan se att 0G Labs avsiktligt har gjort AI-anpassning till problemen med datorkraft, lagring och datacirkulation i AI-träningsprocessen. Till och med konsensusmekanismen har optimerats för AI. Den förbättrade versionen av CometBFT används med 2500+ TPS med finalitet under en sekund, som är speciellt anpassad för de asynkrona egenskaperna hos AI-arbetsbelastningar etc.
Med andra ord, istället för att "patcha" AI på befintliga blockkedjor har 0G designat en "AI Native"-infrastruktur från grunden. Det återstår att se om det äntligen kan få kommersiell verifiering på applikationsnivå under pressen av konkurrens med traditionell AI, men denna differentierade genombrottsidé är värd att lära sig av.
4,97K
Topp
Rankning
Favoriter