许多人对Minimax最近重新引起的关注感到困惑——尤其是因为这是首次大规模转向混合线性注意力——以及Kimi后来采用混合线性变体(以及Qwen3-Next或Qwen3.5的早期尝试)。我实际上很欣赏Minimax在这里的开放态度:他们承认了混合线性或滑动窗口注意力在多跳推理任务中的挑战和遗憾,而这并不是许多实验室会公开说的。 话虽如此,这些“遗憾”可能并没有听起来那么糟糕。Minimax使用了一种非常简单的线性注意力变体(主要是由于当时评估不足),因此性能差距可能被夸大了。持续的预训练策略(即,从全局注意力切换到混合滑动窗口注意力)似乎也相当不理想。就我所知,混合线性注意力在几乎所有基准测试中仍然可以表现得非常强劲,除了多跳推理。如果在多跳推理上的性能下降可以保持足够小,以换取更好的推理效率和数据效率,混合线性注意力仍然有很大的发展空间。 更好的线性复杂度层仍然值得探索,特别是在像vLLM和SGLang这样的框架改善基础设施的情况下。毕竟,我们不希望我们的自主模型永远受到上下文长度的限制——这是我们迟早必须克服的限制。