Когда речь заходит о распределенном обучении ИИ, я заметил, что люди из круга web2AI часто навешивают ярлык "ложная проблема", аргументируя это тем, что вычислительные устройства можно объединить, но эффективное распределенное сотрудничество сталкивается с ужасными затратами на пропускную способность? А @0G_labs недавно опубликовали статью DiLoCox, которая, похоже, нацелена на решение этой проблемы? Давайте подробно обсудим: 1) Сначала поговорим о том, почему распределенное обучение считается "ложной проблемой". Основной конфликт очень прост: вы хотите заменить 100 дешевых GPU на 100 A100, что, кажется, экономит 90% затрат на оборудование, но эти 100 GPU должны поддерживать синхронное обучение, и на каждой эпохе необходимо обмениваться терабайтами градиентных данных. Традиционное решение требует выделенной линии с пропускной способностью 100 Гбит/с, а чтобы достичь уровня сети в 100 Гбит/с, аренда может достигать десятков тысяч долларов в месяц. Если посчитать, то сэкономленные деньги на GPU полностью уходят на пропускную способность, и даже может потребоваться доплата. Исходя из этой логики, вы экономите на стоимости машин, но дополнительно создаете затраты на пропускную способность, что не решает проблему? Поэтому критикуемая как ложная проблема суть всегда была в этом. 2) Статья DiLoCoX от 0G привлекла внимание, потому что они утверждают, что обучали модель с 107B параметрами на сети 1 Гбит/с (обычная офисная пропускная способность) и скорость была в 357 раз быстрее, чем у традиционного решения AllReduce. Эта цифра действительно впечатляет — нужно понимать, что 1 Гбит/с против 100 Гбит/с, разница в пропускной способности в 100 раз, но скорость обучения увеличилась в 357 раз? Как они это сделали? Проведя небольшое исследование, я обнаружил, что это решение включает четыре оптимизации: Pipeline Parallelism — разбивка модели на сегменты для обработки; Dual Optimizer Policy — использование стратегии с двумя оптимизаторами для уменьшения частоты синхронизации; One-Step-Delay Overlap — параллельное выполнение коммуникации и вычислений без ожидания друг друга; Adaptive Gradient Compression — интеллектуальное сжатие градиентов. Проще говоря, они изменили требование "реального времени с сильной синхронизацией" на "асинхронную слабую синхронизацию", а "полный объем передачи данных" на "сжатую инкрементальную передачу". Если провести аналогию, традиционное решение похоже на 100 человек, участвующих в видеоконференции в реальном времени, где каждое действие каждого человека должно синхронно транслироваться, тогда как DiLoCoX — это как если бы каждый записывал свое видео, а затем отправлял только ключевые кадры и изменения. Объем связи уменьшился в 100 раз, но полнота информации осталась более чем на 99%. Почему это возможно? На мой взгляд, ключевым моментом является то, что они уловили одну особенность обучения ИИ — устойчивость к ошибкам. Обучение модели не похоже на перевод транзакций, где даже одна копейка имеет значение. Небольшие ошибки в обновлении градиентов или небольшие задержки в синхронизации в конечном итоге незначительно влияют на сходимость модели. DiLoCoX использует это "пространство для ошибок", чтобы получить значительное повышение эффективности за счет приемлемой потери точности. Это типичное инженерное мышление — не стремиться к совершенству, а стремиться к оптимальному соотношению цена-качество. 3) Но просто решить проблему пропускной способности недостаточно, амбиции 0G явно больше. Посмотрев на их общую архитектуру, становится понятно: у них есть уровень хранения Storage $10/TB, который прямо заявляет о том, что он превосходит Filecoin, а уровень DA специально разработан для ИИ и обеспечивает пропускную способность на уровне ГБ. Причина, по которой они могут реализовать хранение в 100 раз дешевле, заключается в том, что они сделали специальные оптимизации для сценариев обучения ИИ, например, контрольные точки и журналы, создаваемые в процессе обучения, имеют жизненный цикл всего несколько дней, и на самом деле не требуется строгое "постоянное хранение". Таким образом, они фактически применили практическое решение "многоуровневого хранения", предоставляя соответствующий уровень услуг только тогда, когда это необходимо — горячие данные быстро читаются и записываются, но стоят дороже, холодные данные дешевле, но медленнее, временные данные удаляются сразу после использования, что является самым дешевым вариантом. И именно такая дифференцированная цена напрямую затрагивает суть обучения ИИ. Как видно, 0G Labs намеренно адаптировали проблемы вычислительной мощности, хранения и потоков данных в процессе обучения ИИ. Даже механизм консенсуса был оптимизирован для ИИ. Используется улучшенная версия CometBFT, 2500+ TPS с субсекундной финализацией, специально настроенная для асинхронных характеристик рабочих нагрузок ИИ и т.д. Иными словами, 0G не "латает" существующие блокчейны для поддержки ИИ, а разрабатывает с нуля инфраструктуру "AI Native". Что касается того, сможет ли это в конечном итоге получить коммерческую проверку на уровне приложений под давлением конкуренции с традиционным ИИ, это еще предстоит увидеть, но такая дифференцированная стратегия прорыва действительно стоит внимания.
4,96K