跳转到内容
输入关键词后按 Enter 打开第一个结果。

When Attention Closes:LLM 多轮对话为什么会「越聊越笨」?

📝 教学笔记 | 2026-05-14 📄 论文:When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction (arXiv:2605.12922) ✍️ 作者:Vardhan Dongre 等

你给 ChatGPT 写了一段精心设计的系统提示词:“你是一个专业的 Python 导师,语气要简洁,用中文回答,每次只给一段代码示例。” 第一轮对话,它表现得完美无缺。到了第十轮,它开始用英文回答了。第二十轮,它变成了一个喋喋不休的长篇大论机器。

LLM 在多轮对话中逐渐”丢失”初始指令——这个现象每个用过 AI 的人都遇到过。但为什么会这样?之前的研究大多停留在”现象观察”层面:我们知道它会发生,但我们不知道内部到底出了什么问题。

这篇论文给出了第一个机械性解释

二、先补一点背景:Transformer 的注意力机制

Section titled “二、先补一点背景:Transformer 的注意力机制”

要理解这篇论文,你需要知道 Transformer 的两个核心组件:

1. 注意力(Attention)

Transformer 的每一层都有注意力机制,它决定了”生成当前 token 时,模型需要’看’前面的哪些 token”。你可以把它想象成一个聚光灯——模型在生成每个词时,会把注意力投向上下文中不同的位置。

2. 残差流(Residual Stream)

Transformer 还有一条”高速公路”:信息从输入层直接跳接到每一层,和各层的处理结果相加。这条高速公路叫做残差流。即使某一层的注意力没有把某个信息”照亮”,这个信息可能仍然静静地躺在残差流里——就像一本书虽然没被打开,但还在书架上。

关键区别:注意力是主动获取信息的通道,残差流是信息的被动存储。

三、Channel-Transition 框架:注意力通道的”关闭”

Section titled “三、Channel-Transition 框架:注意力通道的”关闭””

论文的核心贡献是提出了 channel-transition framework(通道转换框架)。这个框架的思路非常清晰:

LLM 在多轮对话中维护目标信息的方式,本质上经历了一个”通道转换”过程:

  1. 早期阶段:目标信息(比如系统提示词里的规则)通过注意力通道被活跃地获取。模型生成每个新 token 时,都会”回头看”那些目标 token。
  2. 后期阶段:随着对话越来越长,注意力逐渐被新产生的对话内容”稀释”。目标 token 的注意力权重下降——注意力通道关闭了
  3. 但信息可能没有完全消失:即使注意力通道关闭了,目标信息可能仍然编码在残差流中。就像你虽然没在看某本书,但书里的内容你已经记住了。

这个框架的关键洞见是:注意力丢失 ≠ 信息丢失。信息可能从”注意力通道”转移到了”残差存储”。至于这个转移是否成功,取决于模型架构。

四、GAR:一个诊断注意力健康的指标

Section titled “四、GAR:一个诊断注意力健康的指标”

论文引入了 Goal Accessibility Ratio (GAR),一个简洁但强大的诊断指标。

GAR 衡量的是:模型在生成回答时,对”目标 token”的注意力占对所有 token 总注意力的比例。

直觉理解:如果系统提示词有 100 个 token,对话历史有 2000 个 token,那么在理想情况下,生成回答时应该有一部分注意力分给这 100 个系统提示词 token。GAR 就是这个比例。

  • GAR 高:模型还在”看着”目标信息,行为应该正常。
  • GAR 低:注意力通道关闭了,目标信息不再被主动获取。
  • GAR 随轮次的变化曲线:可以预测模型什么时候会”失控”。

GAR 让我们能够定量追踪注意力的衰减过程。之前你只能说”模型在第 15 轮左右开始不听话了”,现在你可以说”第 15 轮时 GAR 降到了某个阈值以下”。这让诊断和预测变得精确。

实验 1:因果消融——强制关闭注意力通道

Section titled “实验 1:因果消融——强制关闭注意力通道”

研究者在 Mistral 上做了一个精巧的实验:人为地关闭模型对目标 token 的注意力通道

结果:

  • 在一个”记住 20 个事实”的任务中,关闭注意力通道后,召回率从接近完美暴跌到 11%
  • 在人设约束任务中,关闭通道后,人设违反率甚至超过了对抗性压力基线——也就是说,单纯因为注意力丢失导致的行为退化,比用户故意”诱导”模型犯错还要严重。

这两个效应都在**可预测的”交叉轮次”**出现——即 GAR 衰减到某个阈值的那个轮次。

实验 2:残差流探针——信息还在吗?

Section titled “实验 2:残差流探针——信息还在吗?”

研究者训练了线性探针,尝试从残差流表示中恢复目标信息。结果令人震惊:

  • AUC 高达 0.99——残差流中确实还编码着目标信息。
  • 这个结果在四种不同架构上都成立。
  • 但输入嵌入层的探针表现和随机猜测差不多——说明信息不是简单地”存在输入里”,而是被 Transformer 层主动编码到了残差流中。

这是论文最深刻的发现:不同架构在注意力通道关闭后的表现截然不同。

  • 有些模型在注意力消失后,仍然能保持目标行为——信息成功转移到了残差流中。
  • 有些模型虽然残差流中还有目标信息(探针能解码),但行为已经崩了——信息虽然”在”,但模型已经”用不上”了。
  • 这种差异出现的层也各不相同——有的模型在第 2 层就表现出差异,有的到第 27 层才出现。

核心结论:注意力丢失和残差可解码性之间的”差距”,是预测模型行为是否存续的关键指标。

想象你是一个学生,在参加一场开卷考试:

注意力通道就像你的目光——你在翻书、看笔记,主动寻找信息。 残差流就像你的记忆——你之前读过这些内容,它们留在了脑子里。

考试开始时,你频繁翻书(高 GAR)。随着时间推移,你越来越依赖记忆(注意力转移到了”解题”上)。这时有两种可能:

  1. 记忆靠谱:你虽然不翻书了,但记住了关键内容,考试表现依然好。(注意力丢了,残差流接管了。)
  2. 记忆模糊:你不翻书了,但记住的内容不够准确,开始犯错了。(注意力丢了,残差流也没帮上忙。)

这篇论文告诉我们:不同的 LLM 就像不同的学生——有些记忆力好,有些记忆力差。而 GAR 可以帮你判断”这个学生什么时候不再翻书了”,残差探针可以判断”他脑子里还记着多少”。

七、实际意义:对 AI 应用开发的启示

Section titled “七、实际意义:对 AI 应用开发的启示”

如果你在构建一个多轮对话 Agent(比如客服机器人、编程助手),这篇论文直接告诉你:

  • 不要假设模型会永远”记住”系统提示词。 注意力通道会在特定轮次关闭。
  • 可以用 GAR 类的指标来监控注意力健康,预测退化时机。
  • 在关键的轮次节点重新注入目标信息(比如定期重述系统提示词的关键要求),比等到模型出错再补救更有效。
  • 不是上下文窗口越大就越好。问题不在于窗口大小,而在于注意力如何分配。
  • 即使你有 128K 的上下文窗口,如果注意力已经不再分配给开头的指令,那这些指令就形同虚设。
  • 这为”滑动窗口注意力 + 外部记忆检索”的混合架构提供了理论支持。
  • 不同架构的”抗退化”能力不同。 在选择模型时,除了看单轮性能,还应该关注多轮稳定性。
  • 论文的方法(GAR + 残差探针)可以作为模型评估的新维度。

对于构建 AI Agent 的外部记忆系统(比如 RAG、长期记忆数据库),这篇论文的启示是:

  • 外部记忆不是”锦上添花”,而是”必需品”。 因为模型内部的注意力机制注定会丢失早期信息。
  • 最好的记忆系统应该在注意力衰减之前就主动介入,而不是等模型忘了再检索。
概念一句话解释
Channel-Transition 框架LLM 的目标信息从”注意力通道”转向”残差流存储”,转换是否成功取决于架构
GAR衡量模型还在多大程度上”看着”目标 token
关键发现注意力丢失 ≠ 行为失败,差距取决于残差流是否成功接管
因果消融强制关闭注意力通道,召回率暴跌到 11%
残差探针AUC 0.99 证明信息还在,但模型不一定能用
实际意义Agent 需要主动记忆管理,不能依赖模型内部注意力

核心 takeaway:LLM 多轮对话退化不是一个黑箱现象——它有清晰的机械性解释。理解这个机制,是设计更可靠的 AI 系统的基础。


🐱 金豆的教学笔记 | 基于论文 arXiv:2605.12922