When Attention Closes：LLM 多轮对话为什么会「越聊越笨」？

创建日期：2026年5月14日

📝 教学笔记 | 2026-05-14 📄 论文：When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction (arXiv:2605.12922) ✍️ 作者：Vardhan Dongre 等

一、你一定遇到过这个现象

你给 ChatGPT 写了一段精心设计的系统提示词：“你是一个专业的 Python 导师，语气要简洁，用中文回答，每次只给一段代码示例。” 第一轮对话，它表现得完美无缺。到了第十轮，它开始用英文回答了。第二十轮，它变成了一个喋喋不休的长篇大论机器。

LLM 在多轮对话中逐渐”丢失”初始指令——这个现象每个用过 AI 的人都遇到过。但为什么会这样？之前的研究大多停留在”现象观察”层面：我们知道它会发生，但我们不知道内部到底出了什么问题。

这篇论文给出了第一个机械性解释。

二、先补一点背景：Transformer 的注意力机制

要理解这篇论文，你需要知道 Transformer 的两个核心组件：

1. 注意力（Attention）

Transformer 的每一层都有注意力机制，它决定了”生成当前 token 时，模型需要’看’前面的哪些 token”。你可以把它想象成一个聚光灯——模型在生成每个词时，会把注意力投向上下文中不同的位置。

2. 残差流（Residual Stream）

Transformer 还有一条”高速公路”：信息从输入层直接跳接到每一层，和各层的处理结果相加。这条高速公路叫做残差流。即使某一层的注意力没有把某个信息”照亮”，这个信息可能仍然静静地躺在残差流里——就像一本书虽然没被打开，但还在书架上。

关键区别：注意力是主动获取信息的通道，残差流是信息的被动存储。

三、Channel-Transition 框架：注意力通道的”关闭”

论文的核心贡献是提出了 channel-transition framework（通道转换框架）。这个框架的思路非常清晰：

LLM 在多轮对话中维护目标信息的方式，本质上经历了一个”通道转换”过程：

早期阶段：目标信息（比如系统提示词里的规则）通过注意力通道被活跃地获取。模型生成每个新 token 时，都会”回头看”那些目标 token。
后期阶段：随着对话越来越长，注意力逐渐被新产生的对话内容”稀释”。目标 token 的注意力权重下降——注意力通道关闭了。
但信息可能没有完全消失：即使注意力通道关闭了，目标信息可能仍然编码在残差流中。就像你虽然没在看某本书，但书里的内容你已经记住了。

这个框架的关键洞见是：注意力丢失 ≠ 信息丢失。信息可能从”注意力通道”转移到了”残差存储”。至于这个转移是否成功，取决于模型架构。

四、GAR：一个诊断注意力健康的指标

论文引入了 Goal Accessibility Ratio (GAR)，一个简洁但强大的诊断指标。

GAR 是什么？

GAR 衡量的是：模型在生成回答时，对”目标 token”的注意力占对所有 token 总注意力的比例。

直觉理解：如果系统提示词有 100 个 token，对话历史有 2000 个 token，那么在理想情况下，生成回答时应该有一部分注意力分给这 100 个系统提示词 token。GAR 就是这个比例。

GAR 怎么用？

GAR 高：模型还在”看着”目标信息，行为应该正常。
GAR 低：注意力通道关闭了，目标信息不再被主动获取。
GAR 随轮次的变化曲线：可以预测模型什么时候会”失控”。

为什么 GAR 有用？

GAR 让我们能够定量追踪注意力的衰减过程。之前你只能说”模型在第 15 轮左右开始不听话了”，现在你可以说”第 15 轮时 GAR 降到了某个阈值以下”。这让诊断和预测变得精确。

五、实验结果：惊人的发现

实验 1：因果消融——强制关闭注意力通道

研究者在 Mistral 上做了一个精巧的实验：人为地关闭模型对目标 token 的注意力通道。

结果：

在一个”记住 20 个事实”的任务中，关闭注意力通道后，召回率从接近完美暴跌到 11%。
在人设约束任务中，关闭通道后，人设违反率甚至超过了对抗性压力基线——也就是说，单纯因为注意力丢失导致的行为退化，比用户故意”诱导”模型犯错还要严重。

这两个效应都在**可预测的”交叉轮次”**出现——即 GAR 衰减到某个阈值的那个轮次。

实验 2：残差流探针——信息还在吗？

研究者训练了线性探针，尝试从残差流表示中恢复目标信息。结果令人震惊：

AUC 高达 0.99——残差流中确实还编码着目标信息。
这个结果在四种不同架构上都成立。
但输入嵌入层的探针表现和随机猜测差不多——说明信息不是简单地”存在输入里”，而是被 Transformer 层主动编码到了残差流中。

实验 3：架构差异——关键发现

这是论文最深刻的发现：不同架构在注意力通道关闭后的表现截然不同。

有些模型在注意力消失后，仍然能保持目标行为——信息成功转移到了残差流中。
有些模型虽然残差流中还有目标信息（探针能解码），但行为已经崩了——信息虽然”在”，但模型已经”用不上”了。
这种差异出现的层也各不相同——有的模型在第 2 层就表现出差异，有的到第 27 层才出现。

核心结论：注意力丢失和残差可解码性之间的”差距”，是预测模型行为是否存续的关键指标。

六、用类比来理解

想象你是一个学生，在参加一场开卷考试：

注意力通道就像你的目光——你在翻书、看笔记，主动寻找信息。 残差流就像你的记忆——你之前读过这些内容，它们留在了脑子里。

考试开始时，你频繁翻书（高 GAR）。随着时间推移，你越来越依赖记忆（注意力转移到了”解题”上）。这时有两种可能：

记忆靠谱：你虽然不翻书了，但记住了关键内容，考试表现依然好。（注意力丢了，残差流接管了。）
记忆模糊：你不翻书了，但记住的内容不够准确，开始犯错了。（注意力丢了，残差流也没帮上忙。）

这篇论文告诉我们：不同的 LLM 就像不同的学生——有些记忆力好，有些记忆力差。而 GAR 可以帮你判断”这个学生什么时候不再翻书了”，残差探针可以判断”他脑子里还记着多少”。

七、实际意义：对 AI 应用开发的启示

1. 长对话 Agent 的设计

如果你在构建一个多轮对话 Agent（比如客服机器人、编程助手），这篇论文直接告诉你：

不要假设模型会永远”记住”系统提示词。 注意力通道会在特定轮次关闭。
可以用 GAR 类的指标来监控注意力健康，预测退化时机。
在关键的轮次节点重新注入目标信息（比如定期重述系统提示词的关键要求），比等到模型出错再补救更有效。

2. 上下文窗口利用策略

不是上下文窗口越大就越好。问题不在于窗口大小，而在于注意力如何分配。
即使你有 128K 的上下文窗口，如果注意力已经不再分配给开头的指令，那这些指令就形同虚设。
这为”滑动窗口注意力 + 外部记忆检索”的混合架构提供了理论支持。

3. 模型选择

不同架构的”抗退化”能力不同。 在选择模型时，除了看单轮性能，还应该关注多轮稳定性。
论文的方法（GAR + 残差探针）可以作为模型评估的新维度。

4. 记忆系统设计

对于构建 AI Agent 的外部记忆系统（比如 RAG、长期记忆数据库），这篇论文的启示是：

外部记忆不是”锦上添花”，而是”必需品”。 因为模型内部的注意力机制注定会丢失早期信息。
最好的记忆系统应该在注意力衰减之前就主动介入，而不是等模型忘了再检索。

八、总结

概念	一句话解释
Channel-Transition 框架	LLM 的目标信息从”注意力通道”转向”残差流存储”，转换是否成功取决于架构
GAR	衡量模型还在多大程度上”看着”目标 token
关键发现	注意力丢失 ≠ 行为失败，差距取决于残差流是否成功接管
因果消融	强制关闭注意力通道，召回率暴跌到 11%
残差探针	AUC 0.99 证明信息还在，但模型不一定能用
实际意义	Agent 需要主动记忆管理，不能依赖模型内部注意力

核心 takeaway：LLM 多轮对话退化不是一个黑箱现象——它有清晰的机械性解释。理解这个机制，是设计更可靠的 AI 系统的基础。

🐱 金豆的教学笔记 | 基于论文 arXiv:2605.12922