高效注意力机制研究综述(2024-2026)
高效注意力机制(Efficient Attention)研究综述
Section titled “高效注意力机制(Efficient Attention)研究综述”整理日期:2026-04-08 | 背景:精读 Focus 论文后的方向梳理
一、问题定义
Section titled “一、问题定义”标准 Self-Attention 的时间与空间复杂度均为 $O(N^2d)$,其中 $N$ 为序列长度、$d$ 为维度。当 $N$ 增长(长文档、高分辨率图像、视频理解)时,计算与显存开销成为核心瓶颈。高效注意力旨在降低这一复杂度,同时尽量保持模型表达能力。
二、四大技术路线
Section titled “二、四大技术路线”2.1 IO 感知优化:Flash Attention 系列
Section titled “2.1 IO 感知优化:Flash Attention 系列”核心思想: 不改变 Attention 的数学定义,而是通过优化 GPU 内存层次(HBM ↔ SRAM)的访存模式,实现实际 2-4× 的 wall-clock 加速。
| 工作 | 时间 | 关键创新 |
|---|---|---|
| Flash Attention (Tri Dao et al.) | 2022 | Tiling + online softmax,无需 materialize $N \times N$ 矩阵 |
| Flash Attention 2 | 2023 | 更好的 work partitioning,适配 A100/H100,达到理论 FLOPs 利用率 |
| Flash Attention 3 | 2024 | 利用 Hopper 架构的 TMA(Tensor Memory Accelerator)和异步 pipeline |
评价: 这不是算法层面的复杂度降低,而是系统工程层面的极致优化。它证明了 $O(N^2)$ 的精确 Attention 在实际中可以跑得很快。已成为所有 Transformer 训练的基础设施。
局限: 无法突破 $N^2$ 内存上界,超长序列($N > 128K$)仍需配合序列并行或稀疏化。
2.2 稀疏注意力模式(Sparse Attention)
Section titled “2.2 稀疏注意力模式(Sparse Attention)”核心思想: 仅计算部分 query-key 对的注意力,将复杂度降至 $O(N \cdot k)$,其中 $k$ 为每个 query 的 top-k 注意力头数。
两大子路线:
(a) 固定模式(Fixed Pattern)
- Longformer (Beltagy et al., 2020): 局部窗口 + 少量全局 token
- BigBird (Zaheer et al., 2020): 随机 + 窗口 + 全局,证明 Turing 完备
- Sparse Transformer (Child et al., 2019): strided pattern(早期工作)
优点:硬件友好、推理可预测。缺点:模式固定,无法适配不同输入。
(b) 学习型路由(Learned Routing)
- Routing Transformer (Roy et al., 2020): k-means 聚类 token,block 内做 attention
- Reformer (Kitaev et al., 2020): LSH-based 路由
- ****Focus (2024): Centroid routing — 先计算 key 的聚类中心,每个 query 只 attend 到最近的 centroid 对应的 key subset。核心优势:路由开销小($O(Nk)$),质量接近 full attention
- Quest (Shen et al., 2024): 利用 query-key 相似度的在线 top-k 选择
评价: Focus 论文代表了 learned routing 的最新水平——centroid 方法比 LSH 更稳定,比 token-level routing 更高效。稀疏注意力的核心权衡始终是 sparsity vs quality:更高的稀疏度意味着更快的速度,但可能损失重要信息。
2.3 线性注意力 / 核方法
Section titled “2.3 线性注意力 / 核方法”核心思想: 利用核分解 $Attention(Q,K,V) = \phi(Q)(\phi(K)^T V)$,将 $O(N^2d)$ 降至 $O(Nd^2)$。当 $N \gg d$ 时显著加速。
| 工作 | 核函数 $\phi$ | 特点 |
|---|---|---|
| Performer (Choromanski et al., 2021) | Random Feature (FAVOR+) | 无偏估计,但需要较大的特征维度 |
| Linear Transformer (Katharopoulos et al., 2020) | $\phi(x) = elu(x) + 1$ | 简单但近似质量有限 |
| Fastformer (Wu et al., 2021) | additive attention | 在线性复杂度下加 query interaction |
| RWKV (Peng et al., 2023-2025) | 数据依赖的线性 RNN | 训练可并行,推理 $O(1)$ |
评价: 线性注意力在理论上优雅,但实践中近似误差在深层网络中会累积,导致长距离依赖建模能力弱于标准 Attention。最新趋势是与标准 Attention 混合使用。
2.4 替代架构:Mamba/SSM 与线性 RNN
Section titled “2.4 替代架构:Mamba/SSM 与线性 RNN”核心思想: 完全绕开 Attention,用状态空间模型(SSM)或线性 RNN 建模序列。
| 工作 | 时间 | 关键创新 |
|---|---|---|
| Mamba (Gu & Dao, 2023) | 2023 | 选择性 SSM,输入依赖的参数化 |
| Mamba-2 (Dao & Gu, 2024) | 2024 | 结构化 SSM = 线性 Attention 的特例, unify 了 SSM 与 Attention |
| RWKV-6 (2024) | 2024 | Data-dependent recurrence + linear attention 混合 |
| Griffin (De et al., 2024) | 2024 | Gated linear recurrence + local attention 混合 |
| JetMamba (2024) | 2024 | 针对 jet finding 等物理任务的 Mamba 变体 |
| Mamba-3 / BlackMamba | 2025 | MoE + Mamba 架构融合,混合专家 |
关键发现: Mamba-2 证明了 SSM 可以看作线性 Attention 的特例(对角 + 低秩结构)。这为理解 Attention 与 RNN 的关系提供了统一视角。
实践趋势(2025-2026):
- 混合架构成为主流: Jamba(Mamba + Transformer layers 交替)、Griffin(linear RNN + local attention)
- 纯 Mamba 在语言建模上追赶 Transformer 但尚未超越
- SSM 在长上下文(100K+ tokens)推理场景有明显优势
三、综合对比
Section titled “三、综合对比”| 路线 | 复杂度 | 表达能力 | 硬件友好 | 长序列优势 | 代表工作 |
|---|---|---|---|---|---|
| IO 感知优化 | $O(N^2d)$ | ★★★★★ | ★★★★★ | ★★ | Flash Attention 3 |
| 固定稀疏 | $O(Nk)$ | ★★★☆☆ | ★★★★☆ | ★★★★ | Longformer, BigBird |
| 学习路由 | $O(Nk)$ | ★★★★☆ | ★★★☆☆ | ★★★★ | Focus, Quest |
| 线性注意力 | $O(Nd^2)$ | ★★★☆☆ | ★★★☆☆ | ★★★☆ | Performer |
| SSM/线性 RNN | $O(Nd)$ | ★★★★☆ | ★★★★☆ | ★★★★★ | Mamba-2, RWKV-6 |
四、趋势判断
Section titled “四、趋势判断”-
Flash Attention 是基线,不是终点。 它解决了「如何高效计算精确 Attention」的问题,但 $N^2$ 上界仍在。未来长序列任务必须结合稀疏化或替代架构。
-
学习型稀疏注意力(如 Focus)是最有前景的 Attention 优化方向。 相比固定模式和线性近似,learned routing 在保持 $O(Nk)$ 复杂度的同时最大程度保留了表达能力。关键挑战在于路由的计算开销——Focus 的 centroid 方法是目前较好的解决方案。
-
混合架构是中期赢家。 纯 SSM 尚未全面超越 Transformer,纯稀疏 Attention 有质量损失,但混合使用(local attention + global sparse + SSM layers)在各 benchmark 上表现稳健。Jamba、Griffin 等架构已验证这一路线。
-
统一视角正在形成。 Mamba-2 揭示了 SSM 与线性 Attention 的深层联系,Flash Attention 3 利用硬件特性逼近理论极限。未来可能出现更深层的理论统一——Attention、SSM、RNN 或许只是同一数学对象的不同参数化。
-
对于 Focus 论文的定位: Centroid routing 稀疏注意力属于「学习型稀疏注意力」路线,其贡献在于用简单的聚类方法实现了高质量的路由。在混合架构的背景下,它适合作为 Transformer block 中的全局注意力替代模块,配合 local attention 使用效果更佳。
注:本综述基于截至 2026 年初的公开文献,部分 2025-2026 年工作细节可能需进一步核实。