DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Deepseek'in yeni Manifold-Constrained Hyper-Connections makalesine hızlı bir okuma: - Kalıntı boyutu 1×C'den n×C'ye (1 yerine n akış) yükseltmek istersiniz. Önceki kalıntı güncelleme: x' = x + katman(x). X×C yapın ve x' = Ax + B katman(Cx) kullanın. A, B, C hepsi x'e bağlıdır ve küçük matrislerdir (n×n, n×1, n×1). A en etkili olanı gibi görünüyor. Bu Hiper-Bağlantılar (HC) olarak tanımlanıyor. - HC, diğer kalıntı modifikasyon şemalarıyla aynı soruna sahiptir - sonunda öğrenilen A matrislerinin çarpımı (kimlik yolu boyunca) patlar/yok olur. - Bunu düzeltmek için, A matrislerini Birkhoff politopuna projeksiyon ederler (daha basit kelimeler: exp sonrası pozitif olacak şekilde bir matrise dönüştürülür, bu matrisler satır ve sütun toplamları 1 olur - çift stokastik matris denir). Bunun güzel özellikleri var - bu tür matrislerin çarpımları hâlâ kapanma nedeniyle satır ve sütun toplamı 1'e sahiptir, yani şeyler patlamaz (spektral sınır), ve değişmez olan ise, akışlar arasındaki ağırlıkların toplamı 1'dir. n = 1 olduğunda, bu standart kalıntı akışı olur ki bu güzeldir. Dönüşüm yöntemleri basittir - alternatif olarak satır ve sütunları sırasıyla 20 yineleme için satır ve sütun toplamlarına bölürler (iterasyonlar sonsuzluğa giderken istenen matrislere yakınlar). 20'nin hem ileri hem geri geçiş için yeterli olduğunu buldular (60 katman boyunca maksimum geri kazanç 1.6, normal yüksek taşıma seviyesinden 3000 ve 1.6 çok farklı değil). - Bu matrislerin (tüm permütasyon matrislerinin konveks kabuğu) oluşturulması, katman indeksi arttıkça bilgi karışmasına yol açar; bu güzel bir sezgi parçasıdır ve 60 katmanlı bileşik matrislerinde de çok net bir şekilde gösterilmiştir. Genel olarak kalıntı yolların ağırlıklı toplamı elde edildiğine inanıyorum (gradyanları düşünerek), burada mantıksal olarak gruplanabilir yolların ağırlıkları 1'e ulaşıyor. Bence oldukça prensipli bir yaklaşım, ayrıca kazançları (ileri ve geriye) çok istikrarlı hale getiriyor. - İlginç bir şey - katmanların ikinci yarısına kıyasla ilk yarıda çok fazla "havuzlanma" benzeri karışım var. Katmanların ikinci yarısı farklı kanalları birinci yarısına göre daha kesin/keskin bir şekilde ele alıyor, oldukça sezgisel bir yaklaşım. - Ayrıca B ve C'nin parametrizasyonunu da değiştiriyorlar (muhtemelen işaretlerin değişmemesi için tanh yerine sigmoid, ve B'nin önünde 2 faktör, ortalama kalıntı çarpanı korumak için C'ye gerek yok çünkü girdi zaten önceden normlanmıştır). - Bu işlemi hızlandırmak için havalı sistem optimizasyonları - çekirdek füzyonu, mHC geriye geçişinde yeniden hesaplama ve hatta DualPipe'ı (boru hattı paralellik uygulaması) değiştiriyorlar. - Eğitimde n = 4 olduğunda sadece %6,7, kayıp 0,02 azalır ve benchmarklar boyunca iyileşmeler.

En İyiler

Sıralama

Takip Listesi