跳转到内容
输入关键词后按 Enter 打开第一个结果。

论文精读:In-Place Test-Time Training

In-Place Test-Time Training — 精读笔记

Section titled “In-Place Test-Time Training — 精读笔记”

问题动机:为什么需要 In-Place TTT?

Section titled “问题动机:为什么需要 In-Place TTT?”

当前 LLM 采用”先训练后部署”的静态范式——模型权重在推理时完全冻结。这导致两个核心问题:

  1. 无法动态适应上下文:模型不能根据输入序列中的信息”学习”
  2. 上下文窗口的硬限制:ICL 受限于 attention 的二次复杂度
壁垒具体问题
架构不兼容需要从头预训练,无法复用数十亿参数的预训练模型
计算效率低逐 token 更新本质上是串行的,瓶颈 GPU 并行
目标函数不对齐重建目标与 next-token prediction 没有显式对齐

不要替换或新增模块,而是”就地”复用 Transformer 中已有的 MLP 模块作为 fast weights。

Transformer 中的 gated MLP 计算:

$$O = (\phi(H W_gate^\top) \odot (H W_up^\top)) W_down^\top$$

In-Place TTT 的做法:

  • 冻结 $\mathbf W_gate$ 和 $\mathbf W_up$(慢权重)
  • 就地更新 $\mathbf W_down$(快权重)

$\mathbf W_down$ 是 MLP 的最后一层投影,更新它等价于让模型”记住”上下文中哪些 key 应该产生什么 value。

将序列分成 $k$ 个不重叠的 chunk,每个 chunk:

  1. Apply: 用当前快权重计算输出
  2. Update: 用梯度下降更新快权重 $\mathbf W_down^(i+1) = \mathbf W_down^(i) + \eta \hat\mathbf V_[i]^\top \mathbf Z_[i]$

实验表明 C=512~1024 时效果最优,可以充分利用 GPU 并行。

传统 TTT 的重建目标只是”记住当前 token 的表示”。本文设计的目标包含未来 token 信息:

$$\hat\mathbf V = \mathrmConv1D(X_0)\mathbf W_target$$

直觉:不教模型”记住当前是什么”,而是教模型”根据当前预测未来可能是什么”。

更新规则有极其简洁的闭式解——本质上是 outer product 累加,非常高效。

在 induction head 设定下:

目标类型正确 token logit 变化其他 token logit 变化
LM-Aligned显著增加($\propto c_norm^2 \cdot c_align$)几乎不变
Reconstruction几乎不变几乎不变

LM-Aligned 目标能确保正确答案的 logit 显著增加,而重建目标对正确答案的帮助微乎其微。

上下文长度BaselineIn-Place TTT提升
4k96.696.1-0.5
8k94.195.6+1.5
64k74.378.7+4.4
128k74.877.0+2.2
256k(外推)41.743.9+2.2

随着上下文增长,优势持续拉大。 在 LLaMA-3.1-8B 和 Qwen3-14B-Base 上同样有效。

In-Place TTT 在所有上下文长度上一致优于 SWA、GLA、DeltaNet、LaCT 等基线。

  1. 优雅的”就地”设计:让 TTT 从”需要从头训练的新架构”变成”可以即插即用的增强模块”
  2. 目标函数的理论深度:严格证明了 LM-Aligned 目标相比重建目标的优势
  3. 工程实用性:与 context parallelism 兼容、大 chunk size、低开销
  4. 结果令人信服:从 500M 到 14B 都有效
  1. 短上下文下的性能退化:4k 时略差于 baseline,能否自适应开关?
  2. 推理时的计算开销:decode 阶段的开销讨论较少
  3. 理论分析的局限性:induction head 设定相对简化

从信息论角度看,TTT 本质上是在做有损压缩 + 检索

  • 压缩:把过去的信息编码到 fast weights 中
  • 检索:通过当前 token 的 key 从 fast weights 中提取相关信息

In-Place TTT 找到了一个特别好的压缩-检索平衡点:利用整个 MLP 的 W_down 提供大容量,LM-Aligned 目标确保压缩的信息是”预测性有用”的。

In-Place TTT 是一篇工程直觉与理论分析兼具的优秀工作。作为 ICLR 2026 Oral,其核心价值在于:让 TTT 从”学术概念”变成了”可部署的工程方案”


金豆记于 2026-04-09