局部注意力的表达能力：不只是全局注意力的劣化版

局部注意力不只是”砍掉一半”——它带来了全局注意力没有的能力

基于 Jiaoda Li & Ryan Cotterell, “Characterizing the Expressivity of Local Attention in Transformers” (ACL 2026) 链接: https://arxiv.org/abs/2605.00768

写在前面

如果你用过 Transformer，大概率听过这样一个”常识”：全局注意力（每个 token 看所有 token）是”完整的”，局部注意力（每个 token 只看附近几个 token）是为了省算力做的妥协——能力必然更弱。

这个直觉看起来无懈可击。少看了东西，能力怎么会不下降呢？

但现实中，Longformer、Sparse Transformer、Mamba 这些模型用局部（或稀疏）注意力时，不仅速度更快，有时效果反而更好。这个现象困扰了研究者很多年。

2026 年 ACL 收录的这篇论文给出了一个漂亮的数学回答：局部注意力不是全局注意力的”劣化版”。它引入了一种全新的时序建模能力，这种能力是全局注意力单独无法提供的。

下面用直觉和类比来解释这个发现。

1. 先分清两个概念

全局注意力（Global Attention）

想象你在开一个圆桌会议，每个人可以随时跟房间里的任何人交换眼神。你想找谁交流都行，没有任何限制。

在 Transformer 里，这就是标准的 self-attention：序列中每个 token 的注意力权重可以分配给序列中的所有 token。

Token 5 可以同时关注 Token 1, 2, 3, 4, 6, 7, 8, 9... 所有位置

优点：信息获取无死角。缺点：复杂度是 O(n²)，序列一长就爆炸。

局部注意力（Local Attention）

现在规则变了：你只能跟你左右相邻的几个人交流。隔了五排的人，你没办法直接搭话。

在 Transformer 里，这通常通过一个窗口大小（window size）来控制。比如窗口大小为 w，则每个 token 只关注前后各 w 个 token。

Token 5 只能关注 Token 3, 4, 5, 6, 7（假设 w=2）

优点：复杂度降到 O(n·w)，处理长序列时效率高得多。缺点——等等，真的有缺点吗？这就是这篇论文要挑战的问题。

2. 传统认知的漏洞

传统观点的逻辑链条是这样的：

全局注意力能看到所有信息 → 局部注意力只能看到部分信息 → 局部注意力是全局注意力的严格子集 → 局部注意力的表达能力 ≤ 全局注意力

这个推导看起来很合理，但有一个隐藏假设：“看得多”等于”能力强”。

这个假设其实是错的。用一个类比来解释。

类比：望远镜 vs 显微镜

全局注意力就像望远镜：视野广阔，能看到很远的东西。但这不意味着它能做好所有事——你用望远镜看细胞是看不清的。

局部注意力更像显微镜：视野窄，但对近处细节的观察更专注、更精确。

关键是：聚焦不等于缺失。当你只关注局部时，你获得了一种全局注意力所没有的”分辨率优势”。

论文用严格的数学语言证明了这一点。但别担心，我们先不碰公式，继续用直觉理解。

3. 核心发现：两种注意力是互补的

论文的关键结论可以概括为三个层次：

发现一：局部注意力提供了独特的能力

作者从形式语言理论（formal language theory）的角度分析。简单说，他们把 Transformer 看作一种”语言识别器”——给定一串符号，它能不能判断这串符号是否符合某种规则。

在这种框架下：

全局注意力擅长处理一种特定类型的”时间依赖”——它可以记住”过去某个位置出现过什么”（术语叫 “past operator”）
局部注意力引入了一种不同的时间依赖——它擅长处理”最近几个位置之间有什么固定模式”（这是一种新的时序算子）

注意区别：全局注意力关心的是”过去某个地方出现过 X”，而局部注意力关心的是”紧挨着的位置形成了某种模式”。这是两种根本不同的信息提取方式。

发现二：谁也不包含谁

这就推翻了传统认知：

局部注意力能识别一些全局注意力识别不了的语言模式
全局注意力也能识别一些局部注意力识别不了的语言模式
两者严格互补，谁也不是谁的子集

发现三：组合起来最强

当你同时使用全局注意力和局部注意力时，能识别的模式类严格大于单独使用任何一个。这不是简单的”1+1=2”，而是产生了新的能力。

4. 一个直觉例子

想象你要识别这样一个模式：“每两个字符，第1个必须是元音字母，第2个必须是辅音字母”，比如 aB eF iG。

全局注意力在这方面其实不太擅长，因为它的注意力分散在所有位置上——它能”看到”所有 token，但缺乏”紧邻关系”的结构性偏好
局部注意力天然适合这个任务，因为它只看相邻的 token，“第1个和第2个的关系”就是它最擅长捕获的

反过来，如果你要识别”这个句子里任意位置出现过数字 7”，全局注意力可以轻松做到，但局部注意力可能需要这个 7 刚好落在某个 token 的窗口内。

这两个任务需要的能力是不同的。这就是”互补”的直觉含义。

5. 时序算子的类比

论文用了”时序逻辑”（temporal logic）的语言来描述这种区别。如果你不熟悉时序逻辑，可以这么理解：

时序逻辑研究的是事件在时间上的关系。它有几种基本”算子”（operator），每种描述一种不同的时间模式：

“曾经”（Past / Once）算子：过去某个时刻发生了 X。这就是全局注意力的特长——它能回溯到序列中任意位置，检查”是否曾经出现过 X”
“紧接着”（Next / Until）算子：X 之后紧接着发生了 Y。这就是局部注意力带来的新能力——它天然编码了相邻位置之间的关系

论文证明：只有全局注意力时，你只有第一种算子；加入局部注意力后，你额外获得了第二种算子。这就是”严格扩大了表达能力”的含义。

6. 为什么这解释了实践中的现象？

现在回头看开头的谜团：为什么用局部注意力的模型有时效果更好？

原因一：降噪效果

全局注意力的一个隐藏问题是：每个 token 的注意力分散在所有位置上，包括大量不相关的位置。这就像在一个嘈杂的房间里试图听清一个人说话——虽然你”听到”了更多信息，但信噪比反而降低了。

局部注意力通过限制视野，自动过滤掉了不相关的远处信息，提高了信噪比。论文的理论分析为这种”信息过载”现象提供了严格解释。

原因二：结构归纳偏置

局部注意力隐含地假设了一个先验：相邻的元素往往更相关。在自然语言中，这个假设大多数时候是成立的——“the cat” 中的 “the” 和 “cat” 紧邻，它们的关系远比 “the” 和句子末尾某个词的关系重要。

全局注意力没有这个先验，它需要从数据中”重新学会”相邻元素更重要。局部注意力则直接把这个先验写进了架构里。

原因三：互补能力

论文最核心的结论：有些语言模式只有局部注意力能捕获，有些只有全局注意力能捕获。只用全局注意力，你会错过前一类模式。组合使用才能覆盖最广。

7. 对实际架构设计的启示

对 Longformer / Sparse Transformer 的启示

这些模型将注意力限制为局部窗口（加少量全局 token）。论文的理论为此提供了坚实的依据：局部注意力不只是效率优化，它带来了真正的、全局注意力不具备的表达能力。所以 Longformer 的设计在理论上是有道理的。

对 Mamba / SSM 家族的启示

State Space Model（如 Mamba）本质上也在做某种形式的”局部信息压缩”——它们用一个有限大小的状态来维持对过去的信息摘要。这篇论文的分析框架可能也适用于理解 SSM：它们能捕获什么样的时序模式？和注意力相比有什么独特的优势？

对混合架构的启示

论文最直接的启示是：全局 + 局部的混合注意力可能是理论上更优的默认选择。不是出于效率考虑，而是出于表达能力考虑。

这在实践中已经有趋势——很多最新的模型确实在使用混合注意力模式。论文为其提供了理论支撑。

8. 一个更深的思考

这篇论文让我想到了一个更普遍的问题：在深度学习中，我们对”更多 = 更好”的迷信有多深？

更多参数 = 更好？不一定（过度参数化）
更大感受野 = 更好？不一定（噪声、归纳偏置）
更多注意力范围 = 更好？这篇论文说：不一定

有时候，限制本身就是能力。局部注意力通过限制视野，反而获得了全局注意力无法获得的精度和结构感知。这和很多其他领域是一个道理：

CNN 的局部卷积核比全连接层在图像上表现更好
RNN 的有限记忆在某些时序任务上优于完美记忆
人类的有限注意力让我们专注于真正重要的事情

限制不是弱点，限制塑造了能力。

总结

维度	全局注意力	局部注意力
视野	整个序列	窗口内
擅长	”过去某个位置有 X"	"相邻位置形成模式”
复杂度	O(n²)	O(n·w)
表达能力	独特	独特
关系	互补	互补

核心结论：局部注意力不是全局注意力的妥协版，而是一种具有独特表达能力的互补机制。两者组合使用，才能获得最丰富的表达能力。

这篇论文的价值不在于告诉你该用哪种注意力，而在于打破了一个长期的认知盲区——局部注意力不只是为了快，它还有全局注意力给不了的东西。

笔记由金豆 🐱 基于 2026-05-04 arXiv 扫描整理 目标读者：对 Transformer 注意力机制有基础了解的开发者