Mówiąc o rozproszonym treningu AI, zauważyłem, że ludzie z kręgu web2AI często przypinają mu łatkę "fałszywego twierdzenia", argumentując, że urządzenia obliczeniowe mogą być agregowane, ale efektywna współpraca w rozproszonym systemie wiąże się z przerażającymi kosztami pasma? A @0G_labs niedawno opublikowało pracę DiLoCox, która wydaje się mieć na celu rozwiązanie tego problemu? Porozmawiajmy o tym szczegółowo: 1) Najpierw powiedzmy, dlaczego rozproszony trening jest uważany za "fałszywe twierdzenie". Kluczowy konflikt jest bardzo prosty: chcesz zastąpić 100 tanich GPU 100 A100, co wydaje się oszczędzać 90% kosztów sprzętu, ale te 100 GPU musi być synchronizowane podczas treningu, a każdy epok wymaga wymiany danych gradientowych na poziomie TB. Tradycyjne rozwiązanie wymaga 100Gbps dedykowanej przepustowości, a aby osiągnąć 100Gbps na poziomie centrum danych, miesięczny koszt może wynosić dziesiątki tysięcy dolarów. Licząc to, oszczędności na GPU idą na koszty pasma, a nawet można stracić. Z tej perspektywy, oszczędzając na kosztach maszyn, generujesz dodatkowe koszty pasma, co oznacza, że problem nie został rozwiązany? Dlatego krytyka jako fałszywego twierdzenia ma swoje źródło w tym. 2) Praca DiLoCoX od 0G przyciągnęła uwagę, ponieważ twierdzą, że trenowali model z 107B parametrami na sieci 1Gbps (typowa przepustowość biurowa), a prędkość była 357 razy szybsza niż tradycyjne rozwiązania AllReduce. Ta liczba jest naprawdę oszałamiająca — trzeba wiedzieć, że 1Gbps w porównaniu do 100Gbps to różnica 100 razy, ale prędkość treningu wzrosła o 357 razy? Jak to osiągnęli? Po wstępnym badaniu odkryłem, że to rozwiązanie wprowadziło cztery optymalizacje: Pipeline Parallelism dzieli model na segmenty do przetwarzania; Dual Optimizer Policy zmniejsza częstotliwość synchronizacji za pomocą podwójnej strategii optymalizacji; One-Step-Delay Overlap pozwala na równoległe komunikowanie się i obliczenia bez wzajemnego czekania; Adaptive Gradient Compression inteligentnie kompresuje gradienty. Mówiąc prościej, zmienili wymaganie "silnej synchronizacji w czasie rzeczywistym" na "słabą asynchroniczną synchronizację", a "pełne przesyłanie danych" na "kompresowane przesyłanie przyrostowe". Dla porównania, tradycyjne rozwiązanie przypomina 100 osób na wideokonferencji w czasie rzeczywistym, gdzie każdy ruch musi być synchronizowany, podczas gdy DiLoCoX przypomina, że każdy nagrywa osobno, a następnie wysyła tylko kluczowe klatki i zmiany. Ilość komunikacji spadła 100 razy, ale integralność informacji pozostała na poziomie ponad 99%. Dlaczego to działa? Moim zdaniem klucz leży w tym, że uchwycili jedną cechę treningu AI — tolerancję na błędy. Trening modelu nie jest jak transfer pieniędzy, gdzie nawet jeden grosz się liczy. Małe błędy w aktualizacji gradientu, opóźnienia w synchronizacji mają minimalny wpływ na ostateczny efekt konwergencji modelu. DiLoCoX wykorzystuje tę "przestrzeń tolerancji na błędy", aby uzyskać znaczny wzrost wydajności przy akceptowalnej utracie dokładności. To typowe myślenie inżynieryjne — nie dążyć do perfekcji, ale do optymalnego stosunku jakości do ceny. 3) Ale samo rozwiązanie problemu pasma to za mało, ambicje 0G są oczywiście większe. Widać to w ich ogólnej architekturze: mają również warstwę Storage $10/TB, która bezpośrednio ogłasza, że miażdży Filecoin, a warstwa DA została zaprojektowana specjalnie dla AI, osiągając przepustowość na poziomie GB. Możliwość osiągnięcia 100 razy tańszego przechowywania wynika z tego, że dokonano specjalnych optymalizacji dla scenariuszy treningu AI, na przykład, dane checkpoint, logi i inne dane na poziomie TB generowane w trakcie treningu mają cykl życia wynoszący zaledwie kilka dni, więc nie ma potrzeby, aby były przechowywane "na zawsze". Dlatego zastosowano pragmatyczne podejście "przechowywania warstwowego", które zapewnia odpowiedni poziom usług tylko wtedy, gdy jest to potrzebne — dane gorące są szybko odczytywane i zapisywane, ale są droższe, dane zimne są tańsze, ale wolniejsze, a dane tymczasowe są usuwane po użyciu, co jest najtańsze. I to właśnie ta różnicowana wycena trafia w sedno problemu treningu AI. Widać, że w kwestiach mocy obliczeniowej, przechowywania i przepływu danych w procesie treningu AI, 0G Labs celowo dostosowało się do AI. Nawet mechanizm konsensusu został zoptymalizowany pod kątem AI. Używają zmodyfikowanej wersji CometBFT, 2500+ TPS w połączeniu z subsekundową finalnością, specjalnie dostosowanej do asynchronicznych cech obciążenia AI itd. Innymi słowy, 0G nie "łata" istniejącego blockchaina, aby wspierać AI, ale od podstaw zaprojektowało infrastrukturę "AI Native". Co do tego, czy ostatecznie uda się uzyskać walidację komercyjną na poziomie aplikacji w obliczu konkurencji z tradycyjnym AI, to trzeba będzie jeszcze zobaczyć, ale ten różnicowany sposób myślenia jest godny naśladowania.
4,95K