Quando se trata de treinamento distribuído de IA, descobri que as pessoas no círculo web2AI o rotularão como uma "proposição falsa", alegando que os dispositivos de poder de computação podem ser agregados, mas há custos terríveis de largura de banda para colaboração distribuída e eficaz? E @0G_labs publicou recentemente um artigo da DiLoCox, parece que o objetivo é resolver esse problema? Vamos falar sobre isso em detalhes: 1) Vamos falar sobre por que o treinamento distribuído é considerado uma "falsa proposição". A contradição central é simples: você deseja substituir 100 A100 agregando 100 GPUs baratas, o que parece economizar 90% do custo de hardware, mas essas 100 GPUs precisam ser treinadas de forma síncrona e cada época precisa trocar terabytes de dados de gradiente. As soluções tradicionais exigem 100 Gbps de largura de banda de linha dedicada, enquanto atingir uma rede de nível de data center de 100 Gbps pode custar centenas de milhares de dólares por mês. No total, todo o dinheiro da GPU que você economiza é gasto em largura de banda e até de cabeça para baixo. De acordo com essa lógica, economizar o custo da máquina, mas incorrer em custos adicionais de largura de banda, não significa que o problema não foi resolvido? Portanto, o ponto crucial de ser criticado como uma proposição falsa sempre esteve aqui. 2) O artigo DiLoCoX da 0G atraiu a atenção porque alegou treinar um modelo de parâmetro 107B em uma rede de 1 Gbps (largura de banda normal de escritório), que é 357 vezes mais rápido que o esquema AllReduce tradicional. Esse número é realmente explosivo - você sabe, 1 Gbps vs 100 Gbps, a diferença de largura de banda é 100 vezes, mas a velocidade de treinamento é 357 vezes mais rápida? Como fazer isso? Após um estudo aproximado, verificou-se que este conjunto de esquemas fez quatro otimizações: O paralelismo de pipeline divide o modelo em segmentos; Política de otimizador duplo Reduz a frequência de sincronização com políticas de otimizador duplo; A sobreposição de atraso de uma etapa permite que a comunicação e a computação sejam executadas em paralelo sem esperar uma pela outra. A compressão de gradiente adaptável compacta gradientes de forma inteligente. Em termos leigos, é alterar a "sincronização forte em tempo real" exigida original para "sincronização fraca assíncrona" e alterar "transmissão completa de dados" para "transmissão incremental compactada". Por exemplo, enquanto as soluções tradicionais são como videoconferências em tempo real para 100 pessoas, onde todas as ações de cada pessoa são transmitidas simultaneamente, o DiLoCoX é como se todos gravassem separadamente e enviassem apenas quadros-chave e alterações. O volume de tráfego diminuiu 100 vezes, mas a integridade da informação permaneceu acima de 99%. Por que isso é possível? Na minha opinião, o núcleo é que eles capturam um recurso do treinamento de IA - tolerância a falhas. Treinar um modelo não é como uma transferência de transação, que não é um centavo a menos. A atualização do gradiente está um pouco errada, a sincronização está atrasada e o efeito de convergência do modelo final tem pouco impacto. O DiLoCoX usa esse "espaço de tolerância a falhas" para trocar perdas de precisão aceitáveis por ganhos de eficiência de ordens de magnitude. Este é o pensamento típico da engenharia - não perseguir a perfeição, perseguir o melhor desempenho de custo. 3) Mas não é suficiente para resolver o problema da largura de banda, o 0G é obviamente mais ambicioso. Basta olhar para sua arquitetura geral: eles também têm uma camada de armazenamento de US$ 10/TB que afirma diretamente esmagar o Filecoin, e a camada DA é projetada para que a IA atinja a taxa de transferência no nível de GB. A razão pela qual o design pode atingir o armazenamento 100 vezes mais barato é para ser franco, também é uma otimização especial dos cenários de treinamento de IA, por exemplo, o ciclo de vida dos pontos de verificação e logs gerados durante o processo de treinamento é de apenas alguns dias, na verdade, não há necessidade de atingir estritamente o "armazenamento permanente". Portanto, de fato, a solução pragmática de "armazenamento em camadas" é adotada, e apenas o nível de serviço correspondente é fornecido quando necessário - os dados quentes são lidos e gravados rapidamente, mas mais caros, os dados frios são mais baratos, mas mais lentos, e os dados temporários são os mais baratos para excluir quando são usados. E é esse preço diferenciado que atinge diretamente os pontos-chave do treinamento de IA. Acima. Pode-se ver que o 0G Labs fez intencionalmente a adaptação da IA aos problemas de poder de computação, armazenamento e circulação de dados no processo de treinamento de IA. Até mesmo o mecanismo de consenso foi otimizado para IA. A versão aprimorada do CometBFT é usada com 2500+ TPS com finalidade de menos de um segundo, que é especialmente ajustada para as características assíncronas das cargas de trabalho de IA, etc. Em outras palavras, em vez de "corrigir" a IA em blockchains existentes, a 0G projetou uma infraestrutura "AI Native" do zero. Quanto a saber se ele pode finalmente obter verificação comercial em nível de aplicativo sob o aperto da concorrência com a IA tradicional, ainda não se sabe, mas vale a pena aprender com essa ideia inovadora diferenciada.
4,95K