跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+1.86%
USELESS
-7.62%
IKUN
+6.33%
gib
+3.96%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+4.69%
ALON
+21.72%
LAUNCHCOIN
-33.42%
GOONC
+7.53%
KLED
-3.21%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.73%
Boopa
+9.71%
PORK
+1.75%
主页
Songlin Yang ✈️ ICML 2025
Ph.D. student @MIT_CSAIL. Working on scalable and principled methods in #ML & #LLM. In open-sourcing I trust 🐳. she/her/hers
Songlin Yang ✈️ ICML 2025
2025年10月31日
许多人对Minimax最近重新引起的关注感到困惑——尤其是因为这是首次大规模转向混合线性注意力——以及Kimi后来采用混合线性变体(以及Qwen3-Next或Qwen3.5的早期尝试)。我实际上很欣赏Minimax在这里的开放态度:他们承认了混合线性或滑动窗口注意力在多跳推理任务中的挑战和遗憾,而这并不是许多实验室会公开说的。 话虽如此,这些“遗憾”可能并没有听起来那么糟糕。Minimax使用了一种非常简单的线性注意力变体(主要是由于当时评估不足),因此性能差距可能被夸大了。持续的预训练策略(即,从全局注意力切换到混合滑动窗口注意力)似乎也相当不理想。就我所知,混合线性注意力在几乎所有基准测试中仍然可以表现得非常强劲,除了多跳推理。如果在多跳推理上的性能下降可以保持足够小,以换取更好的推理效率和数据效率,混合线性注意力仍然有很大的发展空间。 更好的线性复杂度层仍然值得探索,特别是在像vLLM和SGLang这样的框架改善基础设施的情况下。毕竟,我们不希望我们的自主模型永远受到上下文长度的限制——这是我们迟早必须克服的限制。
25.47K
296
热门
排行
收藏