跳转到内容
输入关键词后按 Enter 打开第一个结果。

Test-Time Training 三级教程:从直觉到前沿

Test-Time Training(测试时训练)三级教程

Section titled “Test-Time Training(测试时训练)三级教程”

想象你参加开卷考试,但规则有点奇怪——你不光能翻书,还能在考试过程中现场学习新知识,然后再答题。

传统 AI 就像一个考前疯狂复习、但考试时脑子被”冻住”的学生——不管题目里出现什么新信息,它只能用原来记住的东西来回答。

Test-Time Training(TTT)改变了这个规则:它允许 AI 在回答问题的过程中,一边读题一边学习。比如你问”这份财报里公司利润是多少?“,AI 不是直接硬答,而是先快速”读懂”财报中的数字和逻辑,然后才给出答案。

核心思想很简单:让 AI 不再只是”回忆”,而是能”临时学会”。这在处理长文档、新数据时特别有用,因为它不再受限于训练时见过的内容。


传统的 Transformer 推理是 feed-forward 的——输入经过固定权重的各层网络,输出结果。无论输入多长、多复杂,模型的参数在推理阶段完全不变。这带来一个根本矛盾:模型在训练时学到的知识是静态的,但真实世界的输入往往是动态的(长上下文中的新信息、分布外数据等)。

Test-Time Training 的核心想法:把训练阶段的梯度更新搬到推理阶段来做。具体来说,对每一段输入序列,模型会:

  1. 构造自监督损失(如 Next Token Prediction 或 Masked Language Modeling)
  2. 计算梯度并更新参数(或缓存中的临时参数)
  3. 用更新后的模型状态处理后续 token 或生成最终输出

这样,模型在处理长上下文时,能够持续适应当前输入中的新信息,而不是被动地依赖预训练时学到的固定表示。

传统推理TTT
参数完全冻结推理时动态更新
上下文适应靠注意力机制靠梯度步自适应
计算开销额外梯度计算

RAG 是从外部数据库检索相关信息拼接到 prompt 中,模型本身不变。TTT 则是让模型自己学会利用上下文中的信息,不依赖外部知识库。


TTT 层可以形式化为一个序列模型。给定输入序列 x₁:t,TTT 层维护一个状态 s_t,其更新规则为:

s(t+1) = s(t) - η · ∇s(t) L(x(t); s(t))

其中 L 是在当前输入 token 上构造的自监督损失,η 是学习率。这个梯度步本身构成了 TTT 层的状态转移函数——它取代了 RNN 的循环门控或 Transformer attention 的加权聚合。

将 TTT 层堆叠后,整个模型在推理时对每个 token 都执行梯度更新,使得中间表示持续演化,从而隐式地将输入信息压缩到模型状态中。这赋予了 TTT 线性时间复杂度的序列建模能力(类似 RNN),同时保留了梯度优化的强大表达能力。

In-Place TTT 的创新(字节跳动,ICLR 2026 Oral)

Section titled “In-Place TTT 的创新(字节跳动,ICLR 2026 Oral)”

原始 TTT 需要维护额外的可训练参数(如一个小型 MLP 作为 TTT 层的”内部模型”),增加了显存和计算开销。In-Place TTT 的关键突破:

  • 无额外参数:直接在 Transformer 隐藏层上做梯度更新,TTT 层本身就是模型的一层
  • 原地操作:梯度的计算和更新完全作用于当前层的激活值,不引入新的可学习参数
  • 高效实现:通过矩阵形式的梯度计算(而非逐元素 autograd),显著降低了推理时梯度步的计算开销

这使得 TTT 从”概念验证”变成了实际可部署的推理策略,尤其适合长上下文场景(100K+ tokens)。

vs. RAG:RAG 的检索质量受限于 embedding 相似度和外部知识库的覆盖度;TTT 不依赖外部存储,而是让模型通过梯度步在线构建对输入的理解。两者可以互补。

vs. Fine-tuning:Fine-tuning 在训练后永久修改模型权重,目标是领域适应;TTT 在推理时临时修改状态,目标是实例级适应,不改变原始权重。

vs. Memory-augmented models(如 MemGPT):这些方法用外部存储扩展上下文窗口,本质是”存-取”范式;TTT 是”学-用”范式——模型通过梯度步压缩输入信息到内部状态。

vs. Recurrence:RNN/LSTM 通过固定门控函数更新状态,表达能力受限于参数化的转移函数;TTT 用优化本身作为状态转移,理论上更灵活。

  • 推理时梯度计算增加延迟,实际部署需硬件级优化
  • 自监督目标的选择对性能影响显著,尚未有统一的理论指导
  • TTT 层与传统 attention 层的混合架构如何最优设计,仍是活跃研究方向