跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+46.42%
USELESS
+15.76%
IKUN
+54.98%
gib
+30.45%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+32.34%
ALON
-0.13%
LAUNCHCOIN
+5.56%
GOONC
+1.09%
KLED
-11.24%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.92%
Boopa
-6.74%
PORK
+5.8%
主頁
Marvin Tong (t/acc)
信任機器@PhalaNetwork、私人 ChatGPT @redpill_gpt、投資@pakafund
查看原文
Marvin Tong (t/acc)
1月4日 00:19
最近讀過的最佳書籍
Bill Gurley
1月2日 23:33
我真的很喜歡 @danwwang 的年終信 - 強烈推薦大家閱讀。這是我最喜歡的段落:
861
Marvin Tong (t/acc)
1月2日 01:54
他們創新了AI公司多年來使用的基礎結構…讓我印象深刻!
nor
1月1日 16:50
快速閱讀 Deepseek 的新論文《多重約束超連接》: - 您想將殘差大小從 1×C 增加到 n×C(n 個流而不是 1)。早期的殘差更新:x' = x + layer(x)。將 x 設為 n×C,並使用 x' = Ax + B layer(Cx) 來替代。A、B、C 都依賴於 x,並且是小矩陣(n×n、n×1、n×1)。A 似乎是影響最大的。這就是超連接(HC)。 - HC 與其他殘差修改方案有相同的問題 - 最終學習到的 A 矩陣的乘積(沿著恆等路徑)會爆炸/消失。 - 為了解決這個問題,他們將 A 矩陣投影到 Birkhoff 多面體上(簡單來說:在經過指數變換使元素為正後,轉換為行和列總和為 1 的矩陣 - 稱為雙隨機矩陣)。這具有良好的性質 - 這類矩陣的乘積仍然具有行和列總和為 1(由於封閉性),因此不會爆炸(光譜界限),且不變性是流的權重總和為 1。對於 n = 1,這變成標準的殘差流,這很好。他們的轉換方法很簡單 - 交替將行和列分別除以行和列的總和,進行 20 次迭代(隨著迭代趨向無限,收斂到我們想要的矩陣)。他們發現 20 次對於前向和後向傳遞都足夠好(在 60 層中,最大後向增益為 1.6,而通常的 HC 為 3000,1.6 與 1 相差不大)。 - 組合這些矩陣(所有排列矩陣的凸包)隨著層索引的增加導致信息混合,這是一個很好的直覺,並且在他們的 60 層復合矩陣中也顯示得非常清楚。我相信總體上我們得到的是殘差路徑的加權和(考慮梯度),在邏輯上可分組的路徑的權重總和為 1。這是一種相當原則的方法,我認為也使得(前向和後向)增益非常穩定。 - 有趣的是 - 在層的前半部分與後半部分相比,有很多類似於 "池化" 的混合。後半部分的層對不同通道的處理比前半部分更精確/尖銳,這是相當直觀的。 - 他們還改變了 B 和 C 的參數化(使用 sigmoid 而不是 tanh,可能是為了避免改變符號,並且在 B 前面有一個 2 的因子,我相信是為了保持均值殘差乘數,C 不需要這樣,因為輸入已經是預規範的)。 - 為了使這個操作快速,他們進行了系統優化 - 他們進行了內核融合,在 mHC 後向傳遞中重新計算,甚至修改了 DualPipe(他們的管道並行實現)。 - 當 n = 4 時,訓練的開銷僅為 6.7%,損失下降了 0.02,並且在基準測試中有改進。
792
熱門
排行
收藏