Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Швидке читання нової статті Діпсік про багатообразні гіперзв'язки: - Ви хочете збільшити розмір залишків з 1×C до n×C (n потоків замість 1). Раніше залишкове оновлення: x' = x + шар(x). Зробіть x n×C і використовуйте x' = Ax + B layer(Cx). A, B, C залежать від x і є малими матрицями (n×n, n×1, n×1). А здається найвпливовішою. Це гіперзв'язки (HC). - HC має ту ж проблему, що й інші залишкові схеми модифікації — зрештою добуток вивчених матриць A (вздовж тотожного шляху) вибухає/зникає. - Щоб це виправити, вони проектують матриці A на багатогранник Біркгофа (простіші слова: перетворюють його, після exp, щоб зробити елементи додатними, у матрицю, суми рядків і стовпців якої дорівнюють 1 — це називається подвійно стохастична матриця). Це має хороші властивості — добутки таких матриц все одно мають суму рядків і стовпців 1 (через замикання), тому речі не вибухають (спектральна межа), а інваріант полягає в тому, що сума ваг по потоках дорівнює 1. Для n = 1 це стає стандартним залишковим потоком, що є приємним. Їхній метод трансформації простий — альтернативно ділити рядки та стовпці на суми рядків і стовпців відповідно протягом 20 ітерацій (збігається до бажаної матриці, коли ітерації йдуть до нескінченності). Вони вважають, що 20 достатньо для пасу вперед і назад (на 60 шарах максимальний зворотний гейн — 1.6 замість 3000 у звичайному HC, і 1.6 не дуже відрізняється від 1). - Складання цих матриць (опукла оболонка всіх матриць перестановок) призводить до змішування інформації зі збільшенням індексу шару, що є гарною інтуїцією і також чітко показано у їхній складній матриці для 60 шарів. Я вважаю, що загалом ми отримуємо зважену суму залишкових шляхів (маючи на увазі градієнти), тоді як логічно груповані шляхи мають ваги, що дорівнюють 1. Досить принциповий підхід, на мою думку, також робить здобутки (вперед і назад) дуже стабільними. - Цікаво, що варто зазначити — у першій половині багато змішування, схожого на «пулінг», порівняно з другою половиною шарів. Друга половина шарів обробляє різні канали точніше і чіткіше, ніж перша, досить інтуїтивно. - Вони також змінюють параметризацію B і C (сигмоїд замість танх, щоб уникнути зміни знаків, і множник 2 перед B, як я вважаю, для збереження залишкового множника C це не потрібно, бо вхід і так попередньо нормується). - Круті оптимізації систем, щоб зробити цю операцію швидкою — вони виконують синтез ядра, повторні обчислення у зворотному проході mHC і навіть модифікують DualPipe (їхню реалізацію паралелізму конвеєра). - Лише 6,7% накладних витрат у тренуванні, коли n = 4, втрати зменшуються на 0,02, а також покращення по бенчмарках.

Найкращі

Рейтинг

Вибране