Als het gaat om AI-distributietraining, merk ik dat mensen in de web2AI-kring het vaak een "valse stelling" noemen, met als reden dat rekencapaciteit kan worden samengevoegd, maar dat effectieve samenwerking in een gedistribueerde omgeving verschrikkelijke bandbreedtekosten met zich meebrengt? En @0G_labs heeft onlangs het DiLoCox-papier gepubliceerd, dat lijkt te zijn gericht op het oplossen van dit probleem? Laten we het in detail bespreken: 1) Laten we eerst bespreken waarom distributietraining als een "valse stelling" wordt beschouwd. De kern van het probleem is heel eenvoudig: je wilt 100 goedkope GPU's samenvoegen om 100 A100's te vervangen, wat lijkt te leiden tot een besparing van 90% op hardwarekosten, maar deze 100 GPU's moeten gesynchroniseerd trainen, en elke epoch moet TB's aan gradientgegevens uitwisselen. Traditionele oplossingen vereisen een speciale bandbreedte van 100Gbps, en om een netwerk van datacenter-niveau van 100Gbps te bereiken, kunnen de maandelijkse kosten oplopen tot tienduizenden dollars. Als je het uitrekent, geef je al het geld dat je bespaart op GPU's uit aan bandbreedte, en misschien zelfs meer. Volgens deze logica, als je de kosten van de machines vermindert, maar extra bandbreedtekosten genereert, heb je het probleem dan niet opgelost? Daarom wordt het als een valse stelling beschouwd. 2) De reden waarom het DiLoCoX-papier van 0G de aandacht trok, is omdat ze beweren dat ze een model met 107B parameters hebben getraind op een netwerk van 1Gbps (normale kantoorbandbreedte), met een snelheid die 357 keer sneller is dan traditionele AllReduce-oplossingen. Dit cijfer is echt verbluffend - je moet weten dat 1Gbps vs 100Gbps, de bandbreedte 100 keer verschilt, maar de trainingssnelheid is met 357 keer verhoogd? Hoe hebben ze dit precies gedaan? Na wat onderzoek ontdekte ik dat deze oplossing vier optimalisaties heeft doorgevoerd: Pipeline Parallelism om het model in segmenten te verwerken; Dual Optimizer Policy om de synchronisatiefrequentie te verminderen; One-Step-Delay Overlap om communicatie en berekeningen parallel te laten verlopen zonder op elkaar te wachten; Adaptive Gradient Compression om gradients slim te comprimeren. In eenvoudige bewoordingen betekent dit dat de oorspronkelijke eis van "real-time sterke synchronisatie" is veranderd in "asynchrone zwakke synchronisatie", en dat "volledige gegevensoverdracht" is veranderd in "gecomprimeerde incrementele overdracht". Om een voorbeeld te geven: de traditionele oplossing is als een videovergadering met 100 mensen, waarbij elke actie van iedereen in real-time moet worden uitgezonden, terwijl DiLoCoX is als iedereen die afzonderlijk opneemt en alleen de sleutelbeelden en veranderingen verzendt. De communicatie is met 100 keer verminderd, maar de volledigheid van de informatie blijft boven de 99%. Waarom is dit haalbaar? Naar mijn mening ligt de kern in het feit dat ze een eigenschap van AI-training hebben benut - fouttolerantie. Het trainen van een model is niet zoals het overmaken van een betaling, waar elke cent telt. Een kleine fout in de gradientupdate of een beetje vertraging in de synchronisatie heeft een verwaarloosbare impact op de uiteindelijke convergentie van het model. DiLoCoX maakt gebruik van deze "fouttolerantieruimte" en accepteert een aanvaardbaar verlies van precisie in ruil voor een enorme efficiëntiewinst. Dit is typisch engineeringdenken - niet streven naar perfectie, maar naar de beste prijs-kwaliteitverhouding. 3) Maar alleen het oplossen van het bandbreedteprobleem is niet genoeg; de ambities van 0G zijn duidelijk groter. Als je naar hun algehele architectuur kijkt, begrijp je het: ze hebben ook een opslaglaag die $10/TB kost en direct claimt Filecoin te overtreffen, en de DA-laag is speciaal ontworpen voor AI, met een doorvoer van GB-niveau. De reden waarom ze opslag 100 keer goedkoper kunnen maken, is simpelweg omdat ze speciale optimalisaties hebben doorgevoerd voor AI-trainingsscenario's. Bijvoorbeeld, de TB's aan gegevens die tijdens het trainingsproces worden gegenereerd, zoals checkpoints en logs, hebben een levenscyclus van slechts enkele dagen, en hoeven eigenlijk niet strikt "permanente opslag" te hebben. Dus ze hebben een praktische oplossing voor "gelaagde opslag" toegepast, waarbij ze alleen de benodigde diensten op het juiste niveau aanbieden - warme gegevens worden snel gelezen en geschreven maar zijn iets duurder, koude gegevens zijn goedkoop maar langzamer, en tijdelijke gegevens worden na gebruik verwijderd, wat het goedkoopst is. En het is precies deze gedifferentieerde prijsstelling die de kern van AI-training raakt. Hierboven. Het is duidelijk dat 0G Labs opzettelijk AI-aanpassingen heeft gemaakt voor de problemen van rekencapaciteit, opslag en gegevensstroom tijdens het AI-trainingsproces. Zelfs het consensusmechanisme is geoptimaliseerd voor AI. Ze gebruiken een verbeterde versie van CometBFT, met 2500+ TPS in combinatie met sub-seconde finaliteit, speciaal geoptimaliseerd voor de asynchrone aard van AI-werkbelasting, enzovoort. Met andere woorden, 0G is niet bezig met het "patchen" van bestaande blockchains om AI te ondersteunen, maar heeft vanaf nul een "AI Native" infrastructuur ontworpen. Of ze uiteindelijk in staat zullen zijn om commerciële validatie op applicatieniveau te behalen onder druk van traditionele AI-concurrentie, moet nog worden afgewacht, maar deze gedifferentieerde benadering is zeker het overwegen waard.
4,97K