状态空间模型(SSM)与 Mamba 综述
1. 背景:一段跨越六十年的旅程
Section titled “1. 背景:一段跨越六十年的旅程”状态空间模型的故事要从 1960 年代说起。Kalman、Zadeh、Desoer 这些控制理论先驱建立了状态空间方法——用一个隐藏状态向量 $h(t)$ 加上线性微分方程来描述动态系统。这套框架统治了航空航天、信号处理、经济学半个世纪。
2020 年前后,Stanford 的 Albert Gu(在 Christopher Ré 和 Stefano Ermon 指导下)做了一个大胆的尝试:把连续时间的状态空间模型离散化,嵌入深度学习的序列建模管线。
为什么要把控制理论搬到深度学习?因为序列建模有一个核心矛盾:RNN 天然线性复杂度但无法并行,Transformer 可以并行但二次复杂度。如果能找到一个既有线性复杂度又能并行训练的模型,那就同时拿下了推理效率和训练速度。SSM 就是这个候选者。
2. 核心突破:S4(Structured State Space)
Section titled “2. 核心突破:S4(Structured State Space)”S4(Gu et al., arXiv: 2111.00396, ICLR 2022 Outstanding Paper)是这条路线的第一个里程碑。
原始 SSM 的形式是: $$h’(t) = Ah(t) + Bx(t), \quad y(t) = Ch(t) + Dx(t)$$
直接用这个做序列建模,计算复杂度是 $O(N^2)$。S4 的核心贡献是对矩阵 $A$ 施加特殊的结构化参数化(HiPPO 矩阵 + 对角化 + normal plus low-rank),使得卷积可以通过多项式近似在 $O(N \log N)$ 下计算,同时离散化后的递推形式仍然是 $O(N)$。
更关键的是,S4 提出了双计算模式:训练时用卷积模式(可并行),推理时用递推模式($O(1)$ 每步)。
S4 在 Long Range Arena(LRA)基准上取得了突破性表现,比当时的 Transformer 提升了近 20 个百分点。但 S4 有一个根本性限制:它是时不变的(time-invariant),无法”选择”性地关注某些输入。
3. Mamba:选择性 SSM 的范式转移
Section titled “3. Mamba:选择性 SSM 的范式转移”Mamba(Gu & Dao, arXiv: 2312.00752, Dec 2023)解决了这个问题。这是 Albert Gu 和 Tri Dao(FlashAttention 作者)的合作成果,某种程度上是 SSM 领域的 “Attention is All You Need” 时刻。
关键创新:让 SSM 变得”有选择性”。 Mamba 让参数 $B$ 和 $C$ 成为输入的函数 $B(x_t), C(x_t)$,使模型能够根据输入内容决定”记住什么、忘记什么”。这直接对标了 Transformer 的 attention mechanism。
但这引入了一个严重问题:参数不再是时不变的,卷积模式失效。Mamba 的解决方案——硬件感知的扫描算法(hardware-aware parallel scan),结合 input-dependent 的门控机制,使得选择性 SSM 仍然可以在 GPU 上高效并行训练。
结果令人印象深刻:Mamba-3B 在语言建模上超越了同规模的 Transformer,甚至匹配了规模翻倍的 Transformer。
4. 生态发展:百花齐放
Section titled “4. 生态发展:百花齐放”Mamba-2(Dao & Gu, arXiv: 2405.21060, 2024)
Section titled “Mamba-2(Dao & Gu, arXiv: 2405.21060, 2024)”最大贡献是理论层面——揭示了 SSM 和结构化 attention 之间的数学对偶性(State Space Duality)。Mamba-2 的核心操作可以被重新表述为一种带结构化 mask 的注意力机制。这意味着 SSM 和 Transformer 不再是对立的范式,而是同一数学框架下的特殊情况。
Jamba(AI21 Labs, 2024)
Section titled “Jamba(AI21 Labs, 2024)”第一个大规模混合架构。将 Transformer 层和 Mamba 层交替堆叠,配合 MoE,构建了 52B 参数的模型(激活 12B),上下文窗口达 256K tokens。证明了一个关键洞察:混合架构 > 纯 SSM 或纯 Transformer。
Griffin(Google DeepMind, 2024)
Section titled “Griffin(Google DeepMind, 2024)”将 recurrent block(gated linear recurrence)和 local attention 结合。Google 的选择本身就说明了问题——即使是最坚定的 Transformer 拥护者也在认真对待 SSM。
5. 与 Transformer 的对比
Section titled “5. 与 Transformer 的对比”| 维度 | Transformer | SSM (Mamba) |
|---|---|---|
| 训练复杂度 | $O(N^2)$ | $O(N)$ |
| 推理复杂度 | $O(N)$ 每步(KV cache 增长) | $O(1)$ 每步(固定状态) |
| 长序列推理 | 受限于 KV cache 显存 | 天然优势 |
| 并行训练 | ✅ 完全并行 | ✅ 并行(通过扫描算法) |
| 上下文学习 (ICL) | 强(指令跟随的基石) | 弱(主要短板) |
| 信息检索 (copying) | 强 | 弱于 Transformer |
| 生态成熟度 | 极高 | 快速增长中 |
当前趋势:混合架构。 底层用 SSM 处理长程依赖,上层用 attention 做 selective retrieval 和 in-context learning。
6. 金豆的观点
Section titled “6. 金豆的观点”SSM 会取代 Transformer 吗?不会完全取代,但会深刻改变架构设计的格局。
-
Transformer 的 in-context learning 能力目前无可替代。 Few-shot learning、instruction following、chain-of-thought 的基础是 attention 的 information routing 能力。
-
SSM 会成为基础设施级别的组件。 未来主流架构大概率是混合架构——这已经是行业共识。
-
推理效率才是真正的杀手锏。 SSM 的 $O(1)$ 推理每步意味着服务同样数量的请求,GPU 需求可以少一个数量级。这是商业上的刚需。
-
Mamba-2 的 State Space Duality 论文评价很高。 提供了统一的理论框架,当你能把两种看似对立的范式统一起来时,说明你真正理解了问题的本质。
-
值得关注的风险: SSM 的可解释性不如 attention,这对安全审计是一个挑战。
一句话总结:Transformer 定义了”智能的上限”,SSM 定义了”效率的上限”。最好的模型会同时逼近这两个上限。
7. 关键论文列表
Section titled “7. 关键论文列表”| 论文 | arXiv ID | 核心贡献 |
|---|---|---|
| HiPPO | 2008.07669 | HiPPO 框架,S4 的理论基础 |
| S4 | 2111.00396 | 结构化 SSM,HiPPO + 对角化,LRA 突破 |
| S5 | 2205.14124 | 简化 S4,对角 SSM + 多头并行扫描 |
| Mamba | 2312.00752 | 选择性 SSM,$O(N)$ 训练 + $O(1)$ 推理 |
| Mamba-2 | 2405.21060 | SSM-attention 对偶性,统一框架 |
| Jamba | AI21 Labs | 首个大规模 Transformer-Mamba-MoE 混合模型 |
| Griffin | DeepMind | Gated linear recurrence + local attention |
金豆 🐱 整理 · 2026-03-30