Al mencionar el entrenamiento distribuido de IA, he notado que la gente del círculo web2AI tiende a etiquetarlo como un "pseudo problema", argumentando que aunque los dispositivos de cómputo pueden agregarse, la colaboración efectiva en un entorno distribuido enfrenta costos de ancho de banda aterradores. Sin embargo, @0G_labs publicó recientemente el artículo DiLoCox, que parece tener como objetivo resolver este problema. Vamos a discutirlo en detalle: 1) Primero, hablemos de por qué el entrenamiento distribuido se considera un "pseudo problema". La contradicción central es simple: quieres reemplazar 100 GPUs baratas por 100 A100, lo que parece ahorrar el 90% del costo de hardware, pero estas 100 GPUs deben mantenerse sincronizadas durante el entrenamiento, y cada época requiere intercambiar datos de gradiente en terabytes. Las soluciones tradicionales requieren un ancho de banda de línea dedicada de 100 Gbps, y para alcanzar un nivel de red de centro de datos de 100 Gbps, el alquiler mensual puede llegar a decenas de miles de dólares. Al final, el dinero que ahorras en GPUs se destina completamente al ancho de banda, e incluso podrías terminar perdiendo dinero. Según esta lógica, aunque se ahorre en el costo de las máquinas, se generan costos adicionales de ancho de banda, lo que significa que el problema no se ha resuelto. Por eso se critica que es un pseudo problema. 2) El artículo DiLoCoX de 0G ha llamado la atención porque afirman haber entrenado un modelo de 107B de parámetros en una red de 1 Gbps (ancho de banda de oficina normal), con una velocidad 357 veces más rápida que la solución tradicional de AllReduce. Este número es realmente sorprendente: hay que tener en cuenta que 1 Gbps frente a 100 Gbps significa que el ancho de banda es 100 veces menor, pero la velocidad de entrenamiento se incrementó 357 veces. ¿Cómo lo lograron? Tras investigar un poco, descubrí que esta solución implementó cuatro optimizaciones: - Pipeline Parallelism: divide el modelo en segmentos para su procesamiento; - Dual Optimizer Policy: utiliza una estrategia de doble optimizador para reducir la frecuencia de sincronización; - One-Step-Delay Overlap: permite que la comunicación y el cálculo se realicen en paralelo sin esperar el uno al otro; - Adaptive Gradient Compression: realiza una compresión inteligente de los gradientes. En términos simples, cambiaron el requisito de "sincronización fuerte en tiempo real" a "sincronización débil asíncrona", y el "transporte de datos completo" a "transporte incremental comprimido". Para ponerlo en perspectiva, la solución tradicional es como una videoconferencia en tiempo real con 100 personas, donde cada acción de cada persona debe ser transmitida en vivo. DiLoCoX, en cambio, es como si cada uno grabara su parte y solo enviara los fotogramas clave y las partes que cambian. La cantidad de comunicación se reduce 100 veces, pero la integridad de la información se mantiene por encima del 99%. ¿Por qué es viable hacer esto? En mi opinión, la clave radica en que han capturado una característica del entrenamiento de IA: la tolerancia a fallos. Entrenar un modelo no es como realizar una transferencia de dinero, donde un centavo de diferencia no es aceptable. Un pequeño error en la actualización de gradientes o un ligero retraso en la sincronización tienen un impacto mínimo en la convergencia final del modelo. DiLoCoX aprovecha este "espacio de tolerancia a fallos" para intercambiar una pérdida de precisión aceptable por un aumento de eficiencia de órdenes de magnitud. Este es un pensamiento típico de ingeniería: no persiguen la perfección, sino la mejor relación calidad-precio. 3) Pero solo resolver el problema del ancho de banda no es suficiente; la ambición de 0G es claramente mayor. Al observar su arquitectura general, queda claro: también tienen una capa de almacenamiento que cuesta $10/TB, que afirman aplastar a Filecoin, y una capa de DA diseñada específicamente para IA, logrando un rendimiento de nivel GB. La razón por la que pueden ofrecer un almacenamiento 100 veces más barato es, en resumen, que han realizado optimizaciones especiales para el escenario de entrenamiento de IA. Por ejemplo, los datos de checkpoint y logs generados durante el proceso de entrenamiento, que son de terabytes, tienen un ciclo de vida de solo unos días, por lo que no es necesario almacenarlos de forma permanente. Por lo tanto, han adoptado un enfoque pragmático de "almacenamiento en capas", proporcionando el nivel de servicio correspondiente solo cuando es necesario: datos calientes que se leen y escriben rápidamente pero son un poco más caros, datos fríos que son baratos pero más lentos, y datos temporales que se eliminan una vez utilizados, lo más barato. Y es precisamente esta diferenciación en la fijación de precios la que ataca el núcleo del entrenamiento de IA. Como se puede ver, 0G Labs ha adaptado intencionadamente los problemas de cómputo, almacenamiento y flujo de datos en el proceso de entrenamiento de IA. Incluso el mecanismo de consenso ha sido optimizado para IA. Utilizan una versión mejorada de CometBFT, con más de 2500 TPS y finalización en menos de un segundo, ajustada específicamente para las características asíncronas de las cargas de trabajo de IA, etc. En otras palabras, 0G no está "parcheando" la blockchain existente para soportar IA, sino que ha diseñado desde cero una infraestructura "nativa de IA". En cuanto a si finalmente podrá obtener validación comercial a nivel de aplicación bajo la presión de la competencia con la IA tradicional, eso está por verse, pero esta forma de romper la diferenciación es bastante digna de ser considerada.
4,95K