Quando se fala em treinamento distribuído de IA, percebo que as pessoas do círculo web2AI costumam rotulá-lo como um "falso dilema", alegando que os dispositivos de computação podem ser agregados, mas a colaboração eficaz em um sistema distribuído enfrenta custos de largura de banda assustadores? E o @0G_labs recentemente publicou o artigo DiLoCox, que parece ter como objetivo resolver esse problema? Vamos discutir em detalhes: 1) Primeiro, vamos falar sobre por que o treinamento distribuído é considerado um "falso dilema". A contradição central é simples: você quer substituir 100 GPUs baratas por 100 A100, aparentemente economizando 90% nos custos de hardware, mas essas 100 GPUs precisam manter um treinamento sincronizado, e a cada época, precisam trocar dados de gradiente em nível de TB. A solução tradicional requer uma largura de banda dedicada de 100Gbps, e para alcançar uma rede de nível de data center de 100Gbps, o aluguel mensal pode chegar a dezenas de milhares de dólares. Fazendo as contas, o dinheiro que você economiza nas GPUs é todo gasto em largura de banda, e você ainda pode acabar perdendo dinheiro. De acordo com essa lógica, você eliminou o custo das máquinas, mas gerou um custo adicional de largura de banda, o que significa que o problema ainda não foi resolvido? Portanto, a crítica de que é um falso dilema sempre esteve aqui. 2) O artigo DiLoCoX do 0G chamou a atenção porque eles afirmam ter treinado um modelo de 107B de parâmetros em uma rede de 1Gbps (largura de banda de escritório comum), com uma velocidade 357 vezes mais rápida do que a solução tradicional AllReduce. Esse número é realmente impressionante — é importante notar que 1Gbps vs 100Gbps, a largura de banda é 100 vezes menor, mas a velocidade de treinamento aumentou 357 vezes? Como conseguiram isso? Após uma pesquisa, descobri que essa solução fez quatro otimizações: Pipeline Parallelism para processar as fatias do modelo em segmentos; Dual Optimizer Policy para reduzir a frequência de sincronização com uma estratégia de dois otimizadores; One-Step-Delay Overlap para permitir que comunicação e computação ocorram em paralelo sem esperar uma pela outra; Adaptive Gradient Compression para realizar compressão inteligente dos gradientes. De forma simplificada, isso significa que a exigência original de "sincronização forte em tempo real" foi alterada para "sincronização fraca assíncrona", e a "transmissão de dados completa" foi transformada em "transmissão incremental comprimida". Para dar um exemplo, a solução tradicional é como uma videoconferência em tempo real com 100 pessoas, onde cada movimento de cada pessoa precisa ser transmitido ao vivo, enquanto o DiLoCoX é como se cada um gravasse sua parte e apenas enviasse os quadros-chave e as partes que mudaram. O volume de comunicação foi reduzido em 100 vezes, mas a integridade da informação permanece acima de 99%. Por que isso é viável? Na minha opinião, o cerne está no fato de que eles capturaram uma característica do treinamento de IA — a tolerância a falhas. Treinar um modelo não é como transferir dinheiro, onde um centavo a menos não é aceitável. Um pequeno erro na atualização do gradiente ou um pequeno atraso na sincronização tem um impacto mínimo na convergência final do modelo. O DiLoCoX aproveita esse "espaço de tolerância a falhas", trocando uma perda de precisão aceitável por um aumento de eficiência em ordem de magnitude. Isso é um pensamento típico de engenharia — não busca a perfeição, mas sim a melhor relação custo-benefício. 3) Mas apenas resolver o problema da largura de banda não é suficiente; a ambição do 0G é claramente maior. Ao olhar para sua arquitetura geral, fica claro: eles também têm uma camada de armazenamento a $10/TB, que afirma esmagar o Filecoin, e a camada DA foi projetada especificamente para IA, alcançando uma taxa de transferência em nível de GB. A razão pela qual conseguem implementar um design de armazenamento 100 vezes mais barato é, em resumo, que fizeram otimizações especiais para cenários de treinamento de IA. Por exemplo, os dados de checkpoint e logs gerados durante o processo de treinamento, que são dados em nível de TB, têm um ciclo de vida de apenas alguns dias, e na verdade não precisam ser armazenados de forma "permanente". Portanto, na verdade, adotaram uma abordagem prática de "armazenamento em camadas", oferecendo o nível de serviço correspondente apenas quando necessário — dados quentes são rápidos de ler e escrever, mas um pouco mais caros, dados frios são baratos, mas mais lentos, e dados temporários são os mais baratos, sendo excluídos após o uso. E é exatamente essa diferenciação de preços que atinge o cerne do treinamento de IA. Acima de tudo. É evidente que, em relação aos problemas de computação, armazenamento e fluxo de dados no processo de treinamento de IA, o 0G Labs fez adaptações para IA. Até mesmo o mecanismo de consenso foi otimizado para IA. Eles usam uma versão melhorada do CometBFT, com mais de 2500 TPS e finalização em menos de um segundo, ajustada especificamente para as características assíncronas da carga de trabalho de IA, entre outras coisas. Em outras palavras, o 0G não está apenas "colando remendos" em blockchains existentes para suportar IA, mas está projetando do zero uma infraestrutura "nativa de IA". Quanto à possibilidade de conseguir validação comercial em nível de aplicação sob a pressão da concorrência com a IA tradicional, isso ainda precisa ser visto, mas essa abordagem diferenciada é bastante digna de nota.
4,96K