Baca cepat makalah Manifold-Constrained Hyper-Connections baru dari Deepseek: - Anda ingin meningkatkan ukuran residu dari 1×C menjadi n×C (n aliran, bukan 1). Pembaruan sisa sebelumnya: x' = x + layer(x). Buat x menjadi n×C, dan gunakan x' = Ax + B layer(Cx) sebagai gantinya. A, B, C semuanya bergantung pada x dan merupakan matriks kecil (n×n, n×1, n×1). A tampaknya yang paling berdampak. Ini adalah Hyper-Connections (HC). - HC memiliki masalah yang sama dengan skema modifikasi sisa lainnya - akhirnya produk dari matriks A yang dipelajari (di sepanjang jalur identitas) meledak/menghilang. - Untuk memperbaikinya, mereka memproyeksikan matriks A ke politop Birkhoff (kata-kata yang lebih sederhana: mengubahnya, setelah exp untuk membuat elemen positif, menjadi matriks yang jumlah baris dan jumlah kolom menjadi 1 - disebut matriks stokastik ganda). Ini memiliki sifat yang bagus - produk dari jenis matriks ini masih memiliki jumlah baris dan kolom 1 (karena penutupan), sehingga hal-hal tidak meledak (terikat spektral), dan invariannya adalah bahwa jumlah bobot di seluruh aliran adalah 1. Untuk n = 1, ini menjadi aliran sisa standar, yang bagus. Metode transformasi mereka sederhana - sebagai alternatif, bagilah baris dan kolom dengan jumlah baris dan kolom masing-masing untuk 20 iterasi (menyatu ke matriks yang kita inginkan saat iterasi pergi ke tak terhingga). Mereka menemukan 20 cukup baik untuk umpan maju dan mundur (di 60 lapisan, penguatan mundur maksimum adalah 1,6 dibandingkan dengan 3000 dari HC biasa, dan 1,6 tidak terlalu berbeda dari 1). - Menyusun matriks ini (lambung cembung dari semua matriks permutasi) mengarah pada pencampuran informasi saat indeks lapisan meningkat, yang merupakan bagian intuisi yang bagus dan juga ditunjukkan dengan sangat jelas dalam matriks kompositnya untuk 60 lapisan. Saya percaya secara keseluruhan kita mendapatkan jumlah tertimbang jalur sisa (memikirkan gradien), di mana jalur yang dapat dikelompokkan secara logis memiliki bobot yang dijumlahkan menjadi 1. Pendekatan yang cukup berprinsip IMO, juga membuat keuntungan (maju dan mundur) sangat stabil. - Hal yang menarik untuk dicatat - banyak pencampuran seperti "pooling" di paruh pertama dibandingkan dengan paruh kedua lapisan. Paruh kedua lapisan memperlakukan saluran yang berbeda dengan lebih tepat/tajam daripada paruh pertama, cukup intuitif. - Mereka juga mengubah parameterisasi B dan C (sigmoid alih-alih tanh, untuk menghindari perubahan tanda mungkin, dan faktor 2 di depan B, saya percaya untuk menghemat pengganda residual rata-rata, C tidak membutuhkan ini karena input sudah dinorma sebelumnya). - Pengoptimalan sistem keren untuk membuat operasi ini cepat - mereka melakukan fusi kernel, komputasi ulang dalam mHC backward pass, dan bahkan memodifikasi DualPipe (implementasi paralelisme pipa mereka). - Hanya 6,7% overhead dalam pelatihan ketika n = 4, kerugian turun 0,02 dan peningkatan di seluruh tolok ukur.