Når det gjelder AI-distribuert opplæring, fant jeg ut at folk i web2AI-kretsen vil merke det som et "falskt forslag", med den begrunnelse at datakraftenheter kan aggregeres, men det er forferdelige båndbreddekostnader for distribuert og effektivt samarbeid? Og @0G_labs nylig publiserte en DiLoCox-artikkel, ser det ut til at målet er å løse dette problemet? La oss snakke om det i detalj: 1) La oss snakke om hvorfor distribuert opplæring anses som et "falskt forslag". Kjernemotsetningen er enkel: du vil erstatte 100 A100 ved å samle 100 billige GPUer, noe som ser ut til å spare 90 % av maskinvarekostnadene, men disse 100 GPUene må trenes synkront, og hver epoke må utveksle terabyte med gradientdata. Tradisjonelle løsninger krever 100 Gbps dedikert linjebåndbredde, mens å nå et nettverk på datasenternivå på 100 Gbps kan koste hundretusenvis av dollar per måned. Totalt brukes alle GPU-pengene du sparer på båndbredde, og til og med opp ned. I følge denne logikken betyr ikke det å spare kostnadene for maskinen, men pådra seg ekstra båndbreddekostnader, at problemet ikke er løst? Derfor har kjernen i å bli kritisert som en falsk påstand alltid vært her. 2) 0Gs DiLoCoX-artikkel vakte oppmerksomhet fordi de hevdet å trene en 107B-parametermodell på et 1 Gbps-nettverk (normal kontorbåndbredde), som er 357 ganger raskere enn det tradisjonelle AllReduce-skjemaet. Dette tallet er virkelig eksplosivt - du vet, 1 Gbps vs 100 Gbps, båndbreddeforskjellen er 100 ganger, men treningshastigheten er 357 ganger raskere? Hvordan gjøre det? Etter en grov studie ble det funnet at dette settet med ordninger har gjort fire optimaliseringer: Pipeline-parallellitet deler modellen i segmenter; Dual Optimizer-policy: Reduserer synkroniseringsfrekvensen med dual optimizer-policyer; One-Step-Delay Overlap gjør at kommunikasjon og databehandling kan kjøre parallelt uten å vente på hverandre. Adaptiv graderingskomprimering komprimerer graderinger på en intelligent måte. I lekmannstermer er det å endre den opprinnelige nødvendige "sanntids sterk synkronisering" til "asynkron svak synkronisering", og endre "full dataoverføring" til "komprimert inkrementell overføring". For eksempel, mens tradisjonelle løsninger er som 100-personers sanntids videokonferanser, der hver persons handling kringkastes samtidig, er DiLoCoX som om alle tar opp separat og deretter bare sender nøkkelbilder og endringer. Trafikkvolumet har gått ned med 100 ganger, men informasjonsintegriteten har holdt seg over 99 %. Hvorfor er dette mulig? Etter min mening er kjernen at de fanger opp et trekk ved AI-trening - feiltoleranse. Å trene en modell er ikke som en transaksjonsoverføring, som ikke er en krone kort. Gradientoppdateringen er litt feilaktig, synkroniseringen er forsinket, og den endelige modellkonvergenseffekten har liten innvirkning. DiLoCoX bruker dette "feiltoleranserommet" til å utveksle akseptable nøyaktighetstap mot effektivitetsgevinster i størrelsesordener. Dette er typisk ingeniørtenkning - ikke å strebe etter perfeksjon, å forfølge den beste kostnadsytelsen. 3) Men det er ikke nok til å løse båndbreddeproblemet, 0G er åpenbart mer ambisiøst. Bare se på deres generelle arkitektur: de har også et lagringslag på $10/TB som direkte hevder å knuse Filecoin, og DA-laget er designet for AI for å oppnå gjennomstrømning på GB-nivå. Grunnen til at designet kan oppnå lagring 100 ganger billigere er for å si det rett ut, det er også en spesiell optimalisering av AI-treningsscenarier, for eksempel livssyklusen til sjekkpunkter og logger generert under treningsprosessen er bare noen få dager, faktisk er det ikke nødvendig å oppnå "permanent lagring". Derfor blir faktisk den pragmatiske løsningen med "lagdelt lagring" tatt i bruk, og bare det tilsvarende servicenivået tilbys når det er nødvendig - varme data leses og skrives raskt, men dyrere, kalde data er billigere, men tregere, og midlertidige data er de billigste å slette når de er brukt opp. Og det er denne differensierte prisen som direkte treffer nøkkelpunktene i AI-trening. Over. Det kan sees at 0G Labs med vilje har gjort AI-tilpasning til problemene med datakraft, lagring og datasirkulasjon i AI-opplæringsprosessen. Til og med konsensusmekanismen er optimalisert for AI. Den forbedrede versjonen av CometBFT brukes med 2500+ TPS med finalitet under et sekund, som er spesielt innstilt for de asynkrone egenskapene til AI-arbeidsbelastninger, etc. Med andre ord, i stedet for å «lappe» AI på eksisterende blokkjeder, har 0G designet en «AI Native»-infrastruktur fra bunnen av. Når det gjelder om den endelig kan oppnå kommersiell verifisering på applikasjonsnivå under presset av konkurranse med tradisjonell AI, gjenstår det å se, men denne differensierte gjennombruddsideen er verdt å lære av.
4,96K