Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En parlant de l'entraînement distribué par IA, j'ai remarqué que les gens du cercle web2AI ont tendance à le qualifier de "pseudo-problème", car bien que les dispositifs de calcul puissent être agrégés, la collaboration efficace en mode distribué entraîne des coûts de bande passante terrifiants ? Et @0G_labs a récemment publié le document DiLoCox, qui semble viser à résoudre ce problème ? Allons-y, discutons-en en détail :
1) Commençons par expliquer pourquoi l'entraînement distribué est considéré comme un "pseudo-problème". Le conflit central est simple : vous souhaitez remplacer 100 GPU bon marché par 100 A100, ce qui semble économiser 90 % des coûts matériels, mais ces 100 GPU doivent rester synchronisés pendant l'entraînement, chaque époque nécessitant l'échange de données de gradients de plusieurs To.
Les solutions traditionnelles nécessitent une bande passante de ligne dédiée de 100 Gbps, et pour atteindre un réseau de niveau centre de données de 100 Gbps, le loyer mensuel peut atteindre des dizaines de milliers de dollars. En calculant, l'argent que vous économisez sur les GPU est entièrement englouti dans la bande passante, voire vous finissez par perdre de l'argent. Selon cette logique, vous avez réduit le coût des machines mais avez généré des coûts de bande passante supplémentaires, ce qui signifie que le problème n'est toujours pas résolu ? C'est pourquoi on critique ce point comme étant un pseudo-problème.
2) Le document DiLoCoX de 0G a suscité de l'attention car ils affirment avoir entraîné un modèle de 107 milliards de paramètres sur un réseau de 1 Gbps (bande passante de bureau ordinaire), avec une vitesse 357 fois plus rapide que les solutions AllReduce traditionnelles. Ce chiffre est vraiment explosif - il faut savoir que 1 Gbps contre 100 Gbps, la bande passante diffère de 100 fois, mais la vitesse d'entraînement a en fait augmenté de 357 fois ?
Comment ont-ils réussi cela ? Après quelques recherches, j'ai découvert que cette solution a effectué quatre optimisations :
Le Pipeline Parallelism divise le modèle en segments à traiter ;
La Dual Optimizer Policy utilise une stratégie de double optimiseur pour réduire la fréquence de synchronisation ; One-Step-Delay Overlap permet à la communication et au calcul de se dérouler en parallèle sans attendre l'un l'autre ; Adaptive Gradient Compression effectue une compression intelligente des gradients.
Pour le dire simplement, ils ont transformé l'exigence de "synchronisation forte en temps réel" en "synchronisation faible asynchrone", et ont remplacé "transmission de données complètes" par "transmission incrémentale compressée".
Pour donner un exemple, la solution traditionnelle ressemble à une vidéoconférence en temps réel avec 100 personnes, où chaque mouvement de chacun doit être diffusé en direct, tandis que DiLoCoX ressemble à chacun enregistrant séparément, puis n'envoyant que les images clés et les parties modifiées. Le volume de communication a été réduit de 100 fois, mais l'intégrité de l'information reste supérieure à 99 %.
Pourquoi cela fonctionne-t-il ? À mon avis, le cœur du problème est qu'ils ont saisi une caractéristique de l'entraînement IA - la tolérance aux erreurs. Entraîner un modèle n'est pas comme effectuer un transfert de fonds, où chaque centime compte. Une légère erreur dans la mise à jour des gradients ou un léger retard dans la synchronisation n'affecte que très peu l'efficacité de convergence du modèle.
DiLoCoX exploite cet "espace de tolérance aux erreurs", échangeant une perte de précision acceptable contre un gain d'efficacité d'un ordre de grandeur. C'est une pensée typiquement ingénierie - ne pas rechercher la perfection, mais viser le meilleur rapport qualité-prix.
3) Mais résoudre uniquement le problème de la bande passante n'est pas suffisant, l'ambition de 0G est clairement plus grande. En regardant leur architecture globale, cela devient évident : ils ont également une couche de stockage à 10 $/To qui déclare directement écraser Filecoin, et la couche DA est spécialement conçue pour l'IA, réalisant un débit de niveau Go.
La raison pour laquelle ils peuvent réaliser un stockage 100 fois moins cher est, en gros, qu'ils ont effectué des optimisations spéciales pour les scénarios d'entraînement IA, par exemple, les checkpoints et les journaux générés pendant le processus d'entraînement, qui sont des données de plusieurs To, ont une durée de vie de quelques jours, et n'ont en fait pas besoin d'être strictement "stockés de manière permanente".
Ils ont donc adopté une approche pragmatique de "stockage hiérarchisé", fournissant le niveau de service approprié uniquement lorsque cela est nécessaire - les données chaudes sont rapidement lisibles et écrites mais un peu plus chères, les données froides sont moins chères mais plus lentes, et les données temporaires sont supprimées après utilisation, ce qui est le moins cher.
Et c'est cette tarification différenciée qui touche directement le cœur de l'entraînement IA.
On peut voir que, concernant les problèmes de puissance de calcul, de stockage et de circulation des données dans le processus d'entraînement IA, 0G Labs a clairement l'intention de s'adapter à l'IA. Même le mécanisme de consensus a été optimisé pour l'IA. Ils utilisent une version améliorée de CometBFT, avec plus de 2500 TPS et une finalité en sous-seconde, spécialement optimisée pour les caractéristiques asynchrones des charges de travail IA, etc.
En d'autres termes, 0G ne "répare" pas la blockchain existante pour soutenir l'IA, mais conçoit à partir de zéro une infrastructure "native IA". Quant à savoir si cela pourra finalement obtenir une validation commerciale au niveau des applications face à la pression concurrentielle des IA traditionnelles, il faudra voir, mais cette approche de rupture différenciée mérite d'être prise en compte.
4,95K
Meilleurs
Classement
Favoris