Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cuando se trata de entrenamiento distribuido por IA, descubrí que las personas en el círculo web2AI lo etiquetarán como una "propuesta falsa", con el argumento de que los dispositivos de potencia informática se pueden agregar, pero ¿hay costos de ancho de banda terribles para una colaboración distribuida y efectiva? Y @0G_labs publicado recientemente un artículo sobre DiLoCox, ¿parece que el objetivo es resolver este problema? Hablemos de ello en detalle:
1) Hablemos de por qué el entrenamiento distribuido se considera una "propuesta falsa". La contradicción central es simple: desea reemplazar 100 A100 agregando 100 GPU baratas, lo que parece ahorrar el 90% del costo de hardware, pero estas 100 GPU deben entrenarse sincrónicamente, y cada época tiene que intercambiar terabytes de datos de gradiente.
Las soluciones tradicionales requieren 100 Gbps de ancho de banda de línea dedicado, mientras que alcanzar una red a nivel de centro de datos de 100 Gbps puede costar cientos de miles de dólares al mes. En total, todo el dinero de la GPU que ahorras se gasta en ancho de banda, e incluso al revés. Según esta lógica, ¿ahorrar el costo de la máquina pero incurrir en costos adicionales de ancho de banda no significa que el problema no se haya resuelto? Por lo tanto, el quid de ser criticado como una proposición falsa siempre ha estado aquí.
2) El artículo DiLoCoX de 0G atrajo la atención porque afirmaron entrenar un modelo de parámetros 107B en una red de 1 Gbps (ancho de banda normal de oficina), que es 357 veces más rápido que el esquema tradicional de AllReduce. Este número es realmente explosivo: ya sabes, 1 Gbps frente a 100 Gbps, la diferencia de ancho de banda es 100 veces, pero la velocidad de entrenamiento es 357 veces más rápida.
¿Cómo hacerlo? Después de un estudio aproximado, se encontró que este conjunto de esquemas ha realizado cuatro optimizaciones:
El paralelismo de canalización divide el modelo en segmentos;
Política de optimizador dual Reduce la frecuencia de sincronización con las políticas de optimizador dual; La superposición de retardo de un paso permite que la comunicación y la computación se ejecuten en paralelo sin esperar el uno al otro. La compresión de gradiente adaptativa comprime de forma inteligente los gradientes.
En términos sencillos, es cambiar la "sincronización fuerte en tiempo real" requerida original por "sincronización débil asíncrona", y cambiar "transmisión de datos completa" por "transmisión incremental comprimida".
Por ejemplo, mientras que las soluciones tradicionales son como videoconferencias en tiempo real de 100 personas, donde todas las acciones de cada persona se transmiten simultáneamente, DiLoCoX es como si todos grabaran por separado y luego enviaran solo fotogramas clave y cambios. El volumen de tráfico ha disminuido 100 veces, pero la integridad de la información se ha mantenido por encima del 99%.
¿Por qué es esto posible? En mi opinión, el núcleo es que capturan una característica del entrenamiento de IA: la tolerancia a fallas. Entrenar un modelo no es como una transferencia de transacción, que no es un centavo corto. La actualización del gradiente es un poco errónea, la sincronización se retrasa y el efecto de convergencia del modelo final tiene poco impacto.
DiLoCoX utiliza este "espacio de tolerancia a fallas" para intercambiar pérdidas de precisión aceptables por ganancias de eficiencia de órdenes de magnitud. Este es el pensamiento típico de la ingeniería: no perseguir la perfección, perseguir el mejor rendimiento de costos.
3) Pero no es suficiente para resolver el problema del ancho de banda, 0G es obviamente más ambicioso. Solo mire su arquitectura general: también tienen una capa de almacenamiento de $ 10 / TB que afirma directamente aplastar a Filecoin, y la capa DA está diseñada para que la IA logre un rendimiento a nivel de GB.
La razón por la que el diseño puede lograr un almacenamiento 100 veces más barato es para decirlo sin rodeos, también es una optimización especial de los escenarios de entrenamiento de IA, por ejemplo, el ciclo de vida de los puntos de control y los registros generados durante el proceso de entrenamiento es de solo unos días, de hecho, no hay necesidad de lograr estrictamente el "almacenamiento permanente".
Por lo tanto, de hecho, se adopta la solución pragmática de "almacenamiento por niveles", y solo se proporciona el nivel de servicio correspondiente cuando es necesario: los datos calientes se leen y escriben rápidamente pero son más caros, los datos fríos son más baratos pero más lentos, y los datos temporales son los más baratos de eliminar cuando se agotan.
Y es este precio diferenciado el que golpea directamente los puntos clave del entrenamiento de IA.
Encima.
Se puede ver que 0G Labs ha realizado intencionalmente la adaptación de IA a los problemas de potencia informática, almacenamiento y circulación de datos en el proceso de entrenamiento de IA. Incluso el mecanismo de consenso se ha optimizado para la IA. La versión mejorada de CometBFT se utiliza con 2500+ TPS con finalidad de menos de un segundo, que está especialmente ajustado para las características asíncronas de las cargas de trabajo de IA, etc.
En otras palabras, en lugar de "parchear" la IA en las cadenas de bloques existentes, 0G ha diseñado una infraestructura "nativa de IA" desde cero. En cuanto a si finalmente puede obtener una verificación comercial a nivel de aplicación bajo la presión de la competencia con la IA tradicional, queda por ver, pero vale la pena aprender de esta idea innovadora diferenciada.
4.93K
Populares
Ranking
Favoritas