Коли справа доходить до розподіленого навчання за допомогою штучного інтелекту, я виявив, що люди в колі web2AI позначать це як «помилкове твердження», на тій підставі, що обчислювальні потужності можуть бути агреговані, але існують жахливі витрати на пропускну здатність для розподіленої та ефективної співпраці? І @0G_labs нещодавно опублікував статтю DiLoCox, здається, що мета – вирішити цю проблему? Поговоримо про це детально: 1) Поговоримо про те, чому розподілене навчання вважається «хибним твердженням». Суть протиріччя проста: ви хочете замінити 100 A100 шляхом агрегування 100 дешевих графічних процесорів, що начебто економить 90% вартості обладнання, але ці 100 графічних процесорів потрібно тренувати синхронно, і кожна епоха має обмінюватися терабайтами градієнтних даних. Традиційні рішення вимагають 100 Гбіт/с пропускної здатності виділеної лінії, тоді як досягнення мережі на рівні центру обробки даних зі швидкістю 100 Гбіт/с може коштувати сотні тисяч доларів на місяць. Загалом усі заощаджені вами гроші на GPU витрачаються на пропускну здатність, та ще й догори дригом. За цією логікою, економія вартості машини, але додаткові витрати на пропускну здатність не означають, що проблема не вирішена? Тому суть критики як помилкового твердження завжди полягала тут. 2) Стаття DiLoCoX від 0G привернула увагу, оскільки вони стверджували, що навчають модель параметрів 107B на мережі 1 Гбіт/с (звичайна пропускна здатність офісу), що в 357 разів швидше, ніж традиційна схема AllReduce. Ця цифра дійсно вибухонебезпечна - знаєте, 1 Гбіт / с проти 100 Гбіт / с, різниця в пропускній здатності в 100 разів, але швидкість тренування в 357 разів швидше? Як це зробити? Після грубого дослідження було встановлено, що в даному наборі схем зроблено чотири оптимізації: Pipeline Parallelism розділяє модель на сегменти; Політика подвійного оптимізатора: зменшує частоту синхронізації за допомогою політик подвійного оптимізатора; One-Step-Delay Overlap дозволяє зв'язку та обчисленням працювати паралельно, не чекаючи один одного. Адаптивне стиснення градієнта інтелектуально стискає градієнти. Говорячи простою мовою, мова йде про зміну початкової необхідної «сильної синхронізації в реальному часі» на «асинхронну слабку синхронізацію», а також про зміну «повної передачі даних» на «стиснену інкрементну передачу». Наприклад, у той час як традиційні рішення схожі на відеоконференції в реальному часі на 100 осіб, де кожна дія кожної людини транслюється одночасно, DiLoCoX схожий на те, що кожен записує окремо, а потім надсилає лише ключові кадри та зміни. Обсяг трафіку зменшився у 100 разів, але цілісність інформації залишилася вище 99%. Чому це можливо? На мій погляд, суть у тому, що вони вловлюють особливість навчання ШІ – відмовостійкість. Навчання моделі не схоже на переказ транзакції, якого не вистачає ні копійки. Оновлення градієнта трохи помилкове, синхронізація затримується, а кінцевий ефект конвергенції моделі має незначний вплив. DiLoCoX використовує цей «простір відмовостійкості», щоб обміняти прийнятні втрати точності на приріст ефективності на порядки. Це типове інженерне мислення - не прагнення до досконалості, гонитва за найкращими економічними показниками. 3) Але цього недостатньо для вирішення проблеми пропускної здатності, 0G явно більш амбітний. Просто подивіться на їхню загальну архітектуру: вони також мають рівень зберігання даних у розмірі 10 доларів за ТБ, який прямо стверджує, що знищує Filecoin, а рівень DA розроблений для того, щоб штучний інтелект досягав пропускної здатності на рівні ГБ. Причина, по якій конструкція може досягти сховища в 100 разів дешевше - це прямо скажемо, це також особлива оптимізація сценаріїв навчання ШІ, наприклад, життєвий цикл контрольних точок і журналів, що генеруються в процесі навчання, становить всього кілька днів, по суті, немає необхідності строго досягати «постійного зберігання». Тому, по суті, прийнято прагматичне рішення «багаторівневого сховища», і забезпечується лише відповідний рівень сервісу, коли це необхідно – гарячі дані зчитуються та записуються швидко, але дорожче, холодні дані дешевші, але повільніші, а тимчасові дані найдешевше видаляти, коли вони витрачаються. І саме це диференційоване ціноутворення безпосередньо б'є по ключових моментах навчання ШІ. Вище. Можна побачити, що 0G Labs навмисно зробила адаптацію ШІ до проблем обчислювальної потужності, зберігання та обігу даних у процесі навчання ШІ. Навіть механізм консенсусу був оптимізований для штучного інтелекту. Використовується покращена версія CometBFT з 2500+ TPS з субсекундною фінальністю, яка спеціально налаштована під асинхронні характеристики робочих навантажень ШІ тощо. Іншими словами, замість того, щоб «латати» ШІ на існуючих блокчейнах, 0G розробила інфраструктуру «AI Native» з нуля. Що стосується того, чи зможе він нарешті отримати комерційну верифікацію на рівні додатків під тиском конкуренції з традиційним ШІ, ще належить з'ясувати, але ця диференційована проривна ідея варта того, щоб на ній вчитися.
4,96K