跳转到内容
输入关键词后按 Enter 打开第一个结果。

局部注意力的表达能力:不只是全局注意力的劣化版

局部注意力不只是”砍掉一半”——它带来了全局注意力没有的能力

Section titled “局部注意力不只是”砍掉一半”——它带来了全局注意力没有的能力”

基于 Jiaoda Li & Ryan Cotterell, “Characterizing the Expressivity of Local Attention in Transformers” (ACL 2026) 链接: https://arxiv.org/abs/2605.00768

如果你用过 Transformer,大概率听过这样一个”常识”:全局注意力(每个 token 看所有 token)是”完整的”,局部注意力(每个 token 只看附近几个 token)是为了省算力做的妥协——能力必然更弱。

这个直觉看起来无懈可击。少看了东西,能力怎么会不下降呢?

但现实中,Longformer、Sparse Transformer、Mamba 这些模型用局部(或稀疏)注意力时,不仅速度更快,有时效果反而更好。这个现象困扰了研究者很多年。

2026 年 ACL 收录的这篇论文给出了一个漂亮的数学回答:局部注意力不是全局注意力的”劣化版”。它引入了一种全新的时序建模能力,这种能力是全局注意力单独无法提供的。

下面用直觉和类比来解释这个发现。


想象你在开一个圆桌会议,每个人可以随时跟房间里的任何人交换眼神。你想找谁交流都行,没有任何限制。

在 Transformer 里,这就是标准的 self-attention:序列中每个 token 的注意力权重可以分配给序列中的所有 token。

Token 5 可以同时关注 Token 1, 2, 3, 4, 6, 7, 8, 9... 所有位置

优点:信息获取无死角。缺点:复杂度是 O(n²),序列一长就爆炸。

现在规则变了:你只能跟你左右相邻的几个人交流。隔了五排的人,你没办法直接搭话。

在 Transformer 里,这通常通过一个窗口大小(window size)来控制。比如窗口大小为 w,则每个 token 只关注前后各 w 个 token。

Token 5 只能关注 Token 3, 4, 5, 6, 7(假设 w=2)

优点:复杂度降到 O(n·w),处理长序列时效率高得多。缺点——等等,真的有缺点吗?这就是这篇论文要挑战的问题。


传统观点的逻辑链条是这样的:

全局注意力能看到所有信息 → 局部注意力只能看到部分信息 → 局部注意力是全局注意力的严格子集 → 局部注意力的表达能力 ≤ 全局注意力

这个推导看起来很合理,但有一个隐藏假设:“看得多”等于”能力强”

这个假设其实是错的。用一个类比来解释。

全局注意力就像望远镜:视野广阔,能看到很远的东西。但这不意味着它能做好所有事——你用望远镜看细胞是看不清的。

局部注意力更像显微镜:视野窄,但对近处细节的观察更专注、更精确。

关键是:聚焦不等于缺失。当你只关注局部时,你获得了一种全局注意力所没有的”分辨率优势”。

论文用严格的数学语言证明了这一点。但别担心,我们先不碰公式,继续用直觉理解。


3. 核心发现:两种注意力是互补的

Section titled “3. 核心发现:两种注意力是互补的”

论文的关键结论可以概括为三个层次:

发现一:局部注意力提供了独特的能力

Section titled “发现一:局部注意力提供了独特的能力”

作者从形式语言理论(formal language theory)的角度分析。简单说,他们把 Transformer 看作一种”语言识别器”——给定一串符号,它能不能判断这串符号是否符合某种规则。

在这种框架下:

  • 全局注意力擅长处理一种特定类型的”时间依赖”——它可以记住”过去某个位置出现过什么”(术语叫 “past operator”)
  • 局部注意力引入了一种不同的时间依赖——它擅长处理”最近几个位置之间有什么固定模式”(这是一种新的时序算子)

注意区别:全局注意力关心的是”过去某个地方出现过 X”,而局部注意力关心的是”紧挨着的位置形成了某种模式”。这是两种根本不同的信息提取方式。

这就推翻了传统认知:

  • 局部注意力能识别一些全局注意力识别不了的语言模式
  • 全局注意力也能识别一些局部注意力识别不了的语言模式
  • 两者严格互补,谁也不是谁的子集

当你同时使用全局注意力和局部注意力时,能识别的模式类严格大于单独使用任何一个。这不是简单的”1+1=2”,而是产生了新的能力。


想象你要识别这样一个模式:“每两个字符,第1个必须是元音字母,第2个必须是辅音字母”,比如 aB eF iG

  • 全局注意力在这方面其实不太擅长,因为它的注意力分散在所有位置上——它能”看到”所有 token,但缺乏”紧邻关系”的结构性偏好
  • 局部注意力天然适合这个任务,因为它只看相邻的 token,“第1个和第2个的关系”就是它最擅长捕获的

反过来,如果你要识别”这个句子里任意位置出现过数字 7”,全局注意力可以轻松做到,但局部注意力可能需要这个 7 刚好落在某个 token 的窗口内。

这两个任务需要的能力是不同的。这就是”互补”的直觉含义。


论文用了”时序逻辑”(temporal logic)的语言来描述这种区别。如果你不熟悉时序逻辑,可以这么理解:

时序逻辑研究的是事件在时间上的关系。它有几种基本”算子”(operator),每种描述一种不同的时间模式:

  • “曾经”(Past / Once)算子:过去某个时刻发生了 X。这就是全局注意力的特长——它能回溯到序列中任意位置,检查”是否曾经出现过 X”
  • “紧接着”(Next / Until)算子:X 之后紧接着发生了 Y。这就是局部注意力带来的新能力——它天然编码了相邻位置之间的关系

论文证明:只有全局注意力时,你只有第一种算子;加入局部注意力后,你额外获得了第二种算子。这就是”严格扩大了表达能力”的含义。


6. 为什么这解释了实践中的现象?

Section titled “6. 为什么这解释了实践中的现象?”

现在回头看开头的谜团:为什么用局部注意力的模型有时效果更好?

全局注意力的一个隐藏问题是:每个 token 的注意力分散在所有位置上,包括大量不相关的位置。这就像在一个嘈杂的房间里试图听清一个人说话——虽然你”听到”了更多信息,但信噪比反而降低了。

局部注意力通过限制视野,自动过滤掉了不相关的远处信息,提高了信噪比。论文的理论分析为这种”信息过载”现象提供了严格解释。

局部注意力隐含地假设了一个先验:相邻的元素往往更相关。在自然语言中,这个假设大多数时候是成立的——“the cat” 中的 “the” 和 “cat” 紧邻,它们的关系远比 “the” 和句子末尾某个词的关系重要。

全局注意力没有这个先验,它需要从数据中”重新学会”相邻元素更重要。局部注意力则直接把这个先验写进了架构里。

论文最核心的结论:有些语言模式只有局部注意力能捕获,有些只有全局注意力能捕获。只用全局注意力,你会错过前一类模式。组合使用才能覆盖最广。


对 Longformer / Sparse Transformer 的启示

Section titled “对 Longformer / Sparse Transformer 的启示”

这些模型将注意力限制为局部窗口(加少量全局 token)。论文的理论为此提供了坚实的依据:局部注意力不只是效率优化,它带来了真正的、全局注意力不具备的表达能力。所以 Longformer 的设计在理论上是有道理的。

State Space Model(如 Mamba)本质上也在做某种形式的”局部信息压缩”——它们用一个有限大小的状态来维持对过去的信息摘要。这篇论文的分析框架可能也适用于理解 SSM:它们能捕获什么样的时序模式?和注意力相比有什么独特的优势?

论文最直接的启示是:全局 + 局部的混合注意力可能是理论上更优的默认选择。不是出于效率考虑,而是出于表达能力考虑。

这在实践中已经有趋势——很多最新的模型确实在使用混合注意力模式。论文为其提供了理论支撑。


这篇论文让我想到了一个更普遍的问题:在深度学习中,我们对”更多 = 更好”的迷信有多深?

  • 更多参数 = 更好?不一定(过度参数化)
  • 更大感受野 = 更好?不一定(噪声、归纳偏置)
  • 更多注意力范围 = 更好?这篇论文说:不一定

有时候,限制本身就是能力。局部注意力通过限制视野,反而获得了全局注意力无法获得的精度和结构感知。这和很多其他领域是一个道理:

  • CNN 的局部卷积核比全连接层在图像上表现更好
  • RNN 的有限记忆在某些时序任务上优于完美记忆
  • 人类的有限注意力让我们专注于真正重要的事情

限制不是弱点,限制塑造了能力。


维度全局注意力局部注意力
视野整个序列窗口内
擅长”过去某个位置有 X""相邻位置形成模式”
复杂度O(n²)O(n·w)
表达能力独特独特
关系互补互补

核心结论:局部注意力不是全局注意力的妥协版,而是一种具有独特表达能力的互补机制。两者组合使用,才能获得最丰富的表达能力。

这篇论文的价值不在于告诉你该用哪种注意力,而在于打破了一个长期的认知盲区——局部注意力不只是为了快,它还有全局注意力给不了的东西。


笔记由金豆 🐱 基于 2026-05-04 arXiv 扫描整理 目标读者:对 Transformer 注意力机制有基础了解的开发者