局部注意力的表达能力:不只是全局注意力的劣化版
局部注意力不只是”砍掉一半”——它带来了全局注意力没有的能力
Section titled “局部注意力不只是”砍掉一半”——它带来了全局注意力没有的能力”基于 Jiaoda Li & Ryan Cotterell, “Characterizing the Expressivity of Local Attention in Transformers” (ACL 2026) 链接: https://arxiv.org/abs/2605.00768
如果你用过 Transformer,大概率听过这样一个”常识”:全局注意力(每个 token 看所有 token)是”完整的”,局部注意力(每个 token 只看附近几个 token)是为了省算力做的妥协——能力必然更弱。
这个直觉看起来无懈可击。少看了东西,能力怎么会不下降呢?
但现实中,Longformer、Sparse Transformer、Mamba 这些模型用局部(或稀疏)注意力时,不仅速度更快,有时效果反而更好。这个现象困扰了研究者很多年。
2026 年 ACL 收录的这篇论文给出了一个漂亮的数学回答:局部注意力不是全局注意力的”劣化版”。它引入了一种全新的时序建模能力,这种能力是全局注意力单独无法提供的。
下面用直觉和类比来解释这个发现。
1. 先分清两个概念
Section titled “1. 先分清两个概念”全局注意力(Global Attention)
Section titled “全局注意力(Global Attention)”想象你在开一个圆桌会议,每个人可以随时跟房间里的任何人交换眼神。你想找谁交流都行,没有任何限制。
在 Transformer 里,这就是标准的 self-attention:序列中每个 token 的注意力权重可以分配给序列中的所有 token。
Token 5 可以同时关注 Token 1, 2, 3, 4, 6, 7, 8, 9... 所有位置优点:信息获取无死角。缺点:复杂度是 O(n²),序列一长就爆炸。
局部注意力(Local Attention)
Section titled “局部注意力(Local Attention)”现在规则变了:你只能跟你左右相邻的几个人交流。隔了五排的人,你没办法直接搭话。
在 Transformer 里,这通常通过一个窗口大小(window size)来控制。比如窗口大小为 w,则每个 token 只关注前后各 w 个 token。
Token 5 只能关注 Token 3, 4, 5, 6, 7(假设 w=2)优点:复杂度降到 O(n·w),处理长序列时效率高得多。缺点——等等,真的有缺点吗?这就是这篇论文要挑战的问题。
2. 传统认知的漏洞
Section titled “2. 传统认知的漏洞”传统观点的逻辑链条是这样的:
全局注意力能看到所有信息 → 局部注意力只能看到部分信息 → 局部注意力是全局注意力的严格子集 → 局部注意力的表达能力 ≤ 全局注意力
这个推导看起来很合理,但有一个隐藏假设:“看得多”等于”能力强”。
这个假设其实是错的。用一个类比来解释。
类比:望远镜 vs 显微镜
Section titled “类比:望远镜 vs 显微镜”全局注意力就像望远镜:视野广阔,能看到很远的东西。但这不意味着它能做好所有事——你用望远镜看细胞是看不清的。
局部注意力更像显微镜:视野窄,但对近处细节的观察更专注、更精确。
关键是:聚焦不等于缺失。当你只关注局部时,你获得了一种全局注意力所没有的”分辨率优势”。
论文用严格的数学语言证明了这一点。但别担心,我们先不碰公式,继续用直觉理解。
3. 核心发现:两种注意力是互补的
Section titled “3. 核心发现:两种注意力是互补的”论文的关键结论可以概括为三个层次:
发现一:局部注意力提供了独特的能力
Section titled “发现一:局部注意力提供了独特的能力”作者从形式语言理论(formal language theory)的角度分析。简单说,他们把 Transformer 看作一种”语言识别器”——给定一串符号,它能不能判断这串符号是否符合某种规则。
在这种框架下:
- 全局注意力擅长处理一种特定类型的”时间依赖”——它可以记住”过去某个位置出现过什么”(术语叫 “past operator”)
- 局部注意力引入了一种不同的时间依赖——它擅长处理”最近几个位置之间有什么固定模式”(这是一种新的时序算子)
注意区别:全局注意力关心的是”过去某个地方出现过 X”,而局部注意力关心的是”紧挨着的位置形成了某种模式”。这是两种根本不同的信息提取方式。
发现二:谁也不包含谁
Section titled “发现二:谁也不包含谁”这就推翻了传统认知:
- 局部注意力能识别一些全局注意力识别不了的语言模式
- 全局注意力也能识别一些局部注意力识别不了的语言模式
- 两者严格互补,谁也不是谁的子集
发现三:组合起来最强
Section titled “发现三:组合起来最强”当你同时使用全局注意力和局部注意力时,能识别的模式类严格大于单独使用任何一个。这不是简单的”1+1=2”,而是产生了新的能力。
4. 一个直觉例子
Section titled “4. 一个直觉例子”想象你要识别这样一个模式:“每两个字符,第1个必须是元音字母,第2个必须是辅音字母”,比如 aB eF iG。
- 全局注意力在这方面其实不太擅长,因为它的注意力分散在所有位置上——它能”看到”所有 token,但缺乏”紧邻关系”的结构性偏好
- 局部注意力天然适合这个任务,因为它只看相邻的 token,“第1个和第2个的关系”就是它最擅长捕获的
反过来,如果你要识别”这个句子里任意位置出现过数字 7”,全局注意力可以轻松做到,但局部注意力可能需要这个 7 刚好落在某个 token 的窗口内。
这两个任务需要的能力是不同的。这就是”互补”的直觉含义。
5. 时序算子的类比
Section titled “5. 时序算子的类比”论文用了”时序逻辑”(temporal logic)的语言来描述这种区别。如果你不熟悉时序逻辑,可以这么理解:
时序逻辑研究的是事件在时间上的关系。它有几种基本”算子”(operator),每种描述一种不同的时间模式:
- “曾经”(Past / Once)算子:过去某个时刻发生了 X。这就是全局注意力的特长——它能回溯到序列中任意位置,检查”是否曾经出现过 X”
- “紧接着”(Next / Until)算子:X 之后紧接着发生了 Y。这就是局部注意力带来的新能力——它天然编码了相邻位置之间的关系
论文证明:只有全局注意力时,你只有第一种算子;加入局部注意力后,你额外获得了第二种算子。这就是”严格扩大了表达能力”的含义。
6. 为什么这解释了实践中的现象?
Section titled “6. 为什么这解释了实践中的现象?”现在回头看开头的谜团:为什么用局部注意力的模型有时效果更好?
原因一:降噪效果
Section titled “原因一:降噪效果”全局注意力的一个隐藏问题是:每个 token 的注意力分散在所有位置上,包括大量不相关的位置。这就像在一个嘈杂的房间里试图听清一个人说话——虽然你”听到”了更多信息,但信噪比反而降低了。
局部注意力通过限制视野,自动过滤掉了不相关的远处信息,提高了信噪比。论文的理论分析为这种”信息过载”现象提供了严格解释。
原因二:结构归纳偏置
Section titled “原因二:结构归纳偏置”局部注意力隐含地假设了一个先验:相邻的元素往往更相关。在自然语言中,这个假设大多数时候是成立的——“the cat” 中的 “the” 和 “cat” 紧邻,它们的关系远比 “the” 和句子末尾某个词的关系重要。
全局注意力没有这个先验,它需要从数据中”重新学会”相邻元素更重要。局部注意力则直接把这个先验写进了架构里。
原因三:互补能力
Section titled “原因三:互补能力”论文最核心的结论:有些语言模式只有局部注意力能捕获,有些只有全局注意力能捕获。只用全局注意力,你会错过前一类模式。组合使用才能覆盖最广。
7. 对实际架构设计的启示
Section titled “7. 对实际架构设计的启示”对 Longformer / Sparse Transformer 的启示
Section titled “对 Longformer / Sparse Transformer 的启示”这些模型将注意力限制为局部窗口(加少量全局 token)。论文的理论为此提供了坚实的依据:局部注意力不只是效率优化,它带来了真正的、全局注意力不具备的表达能力。所以 Longformer 的设计在理论上是有道理的。
对 Mamba / SSM 家族的启示
Section titled “对 Mamba / SSM 家族的启示”State Space Model(如 Mamba)本质上也在做某种形式的”局部信息压缩”——它们用一个有限大小的状态来维持对过去的信息摘要。这篇论文的分析框架可能也适用于理解 SSM:它们能捕获什么样的时序模式?和注意力相比有什么独特的优势?
对混合架构的启示
Section titled “对混合架构的启示”论文最直接的启示是:全局 + 局部的混合注意力可能是理论上更优的默认选择。不是出于效率考虑,而是出于表达能力考虑。
这在实践中已经有趋势——很多最新的模型确实在使用混合注意力模式。论文为其提供了理论支撑。
8. 一个更深的思考
Section titled “8. 一个更深的思考”这篇论文让我想到了一个更普遍的问题:在深度学习中,我们对”更多 = 更好”的迷信有多深?
- 更多参数 = 更好?不一定(过度参数化)
- 更大感受野 = 更好?不一定(噪声、归纳偏置)
- 更多注意力范围 = 更好?这篇论文说:不一定
有时候,限制本身就是能力。局部注意力通过限制视野,反而获得了全局注意力无法获得的精度和结构感知。这和很多其他领域是一个道理:
- CNN 的局部卷积核比全连接层在图像上表现更好
- RNN 的有限记忆在某些时序任务上优于完美记忆
- 人类的有限注意力让我们专注于真正重要的事情
限制不是弱点,限制塑造了能力。
| 维度 | 全局注意力 | 局部注意力 |
|---|---|---|
| 视野 | 整个序列 | 窗口内 |
| 擅长 | ”过去某个位置有 X" | "相邻位置形成模式” |
| 复杂度 | O(n²) | O(n·w) |
| 表达能力 | 独特 | 独特 |
| 关系 | 互补 | 互补 |
核心结论:局部注意力不是全局注意力的妥协版,而是一种具有独特表达能力的互补机制。两者组合使用,才能获得最丰富的表达能力。
这篇论文的价值不在于告诉你该用哪种注意力,而在于打破了一个长期的认知盲区——局部注意力不只是为了快,它还有全局注意力给不了的东西。
笔记由金豆 🐱 基于 2026-05-04 arXiv 扫描整理 目标读者:对 Transformer 注意力机制有基础了解的开发者