跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+5.24%
USELESS
-2.83%
IKUN
-6.58%
gib
+5.08%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+7.8%
ALON
+17.47%
LAUNCHCOIN
-38.21%
GOONC
+8.9%
KLED
+5.75%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.46%
Boopa
+13.25%
PORK
+1.75%
主頁
Songlin Yang ✈️ ICML 2025
博士生@MIT_CSAIL。致力於在 #ML 和 #LLM 中採用可擴展且有原則的方法。在開源方面,我信任🐳。她/她/她的
查看原文
Songlin Yang ✈️ ICML 2025
2025年10月31日
許多人對Minimax最近重新受到關注感到困惑,尤其是因為這是首次大規模轉向混合線性注意力,還有Kimi後來採用混合線性變體(以及Qwen3-Next或Qwen3.5的早期嘗試)。我其實很欣賞Minimax在這裡的開放性:他們承認了混合線性或滑動窗口注意力在多跳推理任務上的挑戰和遺憾,這不是很多實驗室會公開說的。 話雖如此,這些“遺憾”可能並不像聽起來那麼糟糕。Minimax使用了一種非常簡單的線性注意力變體(主要是因為當時評估不足),因此性能差距可能被誇大了。持續的預訓練策略(即,從全局注意力切換到混合滑動窗口注意力)似乎也相當不理想。據我所知,混合線性注意力在幾乎所有基準測試中仍然可以表現得非常強勁,除了多跳推理。如果在多跳推理上的性能下降可以保持足夠小,以換取更好的推理效率和數據效率,混合線性注意力仍然有很大的成長空間。 更好的線性複雜度層仍然值得探索,特別是隨著像vLLM和SGLang這樣的框架基礎設施的改善。畢竟,我們不希望我們的自主模型永遠受到上下文長度的限制——這是我們遲早必須克服的限制。
25.47K
296
熱門
排行
收藏