許多人對Minimax最近重新受到關注感到困惑,尤其是因為這是首次大規模轉向混合線性注意力,還有Kimi後來採用混合線性變體(以及Qwen3-Next或Qwen3.5的早期嘗試)。我其實很欣賞Minimax在這裡的開放性:他們承認了混合線性或滑動窗口注意力在多跳推理任務上的挑戰和遺憾,這不是很多實驗室會公開說的。 話雖如此,這些“遺憾”可能並不像聽起來那麼糟糕。Minimax使用了一種非常簡單的線性注意力變體(主要是因為當時評估不足),因此性能差距可能被誇大了。持續的預訓練策略(即,從全局注意力切換到混合滑動窗口注意力)似乎也相當不理想。據我所知,混合線性注意力在幾乎所有基準測試中仍然可以表現得非常強勁,除了多跳推理。如果在多跳推理上的性能下降可以保持足夠小,以換取更好的推理效率和數據效率,混合線性注意力仍然有很大的成長空間。 更好的線性複雜度層仍然值得探索,特別是隨著像vLLM和SGLang這樣的框架基礎設施的改善。畢竟,我們不希望我們的自主模型永遠受到上下文長度的限制——這是我們遲早必須克服的限制。