论文精读:CLEAR — Agent 上下文的对比学习增强
CLEAR 精读笔记
Section titled “CLEAR 精读笔记”论文基本信息
Section titled “论文基本信息”- 论文: CLEAR: Context Augmentation from Contrastive Learning of Experience via Agentic Reflection
- 作者: Linbo Liu, Guande Wu, Han Ding 等 (AWS AI Labs)
- arXiv: https://arxiv.org/abs/2604.07487
- 代码: https://github.com/awslabs/CLEAR
LLM Agent 在执行复杂任务时严重依赖上下文质量。现有方法主要分为两类:
- 检索式(RAG):检索到的内容需要执行 agent 自行适配,增加推理负担
- Prompt 优化(ACE, Dynamic Cheatsheet):通用的,非针对特定任务实例定制
核心问题: 现有方法要么检索不够精准,要么不够定制化。当底层 LLM 推理能力有限或新任务与历史差异较大时,效果堪忧。
过去的经验不应被原样搬运到新场景,而应该被”消化”后重新生成。训练一个 Context Augmentation Model (CAM),输入新任务描述,输出为该任务量身定制的上下文。
三阶段训练框架
Section titled “三阶段训练框架”Phase 0: 对比学习 + 反思蒸馏(数据生成)
- 对每个训练任务执行 6 次,按奖励排序
- 反思 agent(具备工具使用能力的 agentic 系统)做多轨迹对比分析
- 生成 SFT 数据
Phase 1: SFT(warm-up)
- 用 Phase 0 产生的数据训练 CAM(基于 Qwen3-32B)
- 数据不足时使用组合式数据增强
Phase 2: RL(端到端优化)
- 奖励信号来自实际执行 agent 的运行结果
- 使用 GRPO 作为 RL 算法
- 只有 CAM 参数可训练,执行 agent 完全冻结
推理: q_new → CAM → c_new → q_new ⊕ c_new → 执行 Agent
AppWorld(Claude-Sonnet-4 执行 Agent)
Section titled “AppWorld(Claude-Sonnet-4 执行 Agent)”| 方法 | TGC | SGC |
|---|---|---|
| Baseline | 72.62% | 59.67% |
| RAG | 76.11% | 63.26% |
| ACE | 74.38% | 60.47% |
| CLEAR | 81.15% | 67.41% |
相比 Baseline 提升 +8.53% TGC。而且 CLEAR 的 prompt 是 benchmark-agnostic 的,ACE 使用了针对 AppWorld 定制的 prompt。
WebShop-40k
Section titled “WebShop-40k”| 方法 | Avg. Reward |
|---|---|
| Baseline | 0.6799 |
| RAG | 0.7252 |
| CLEAR | 0.7406 |
CAM 可迁移性
Section titled “CAM 可迁移性”用 Claude 生成的训练数据训练的 CAM,在 DeepSeek-V3.1 执行 agent 上仍然有效——学到了任务级的通用策略。
与相关工作对比
Section titled “与相关工作对比”| 方法 | 训练方式 | 任务定制性 |
|---|---|---|
| RAG | 无训练 | 低 |
| ACE | 无训练 | 中 |
| CLEAR | SFT + RL | 高(生成式定制) |
CLEAR 是唯一将”对比学习蒸馏”和”端到端 RL 优化”结合的方法。
- 从”检索”到”生成”的范式转换,更符合人类学习方式
- 不修改执行模型,对闭源 API 友好
- Benchmark-agnostic,通用性好
- 代码开源,可复现
- 数据收集成本高(每任务执行 6 次)
- 评估基准有限(仅 AppWorld 和 WebShop-40k)
- CAM 用 32B 模型,最小有效规模未知
- 长尾任务泛化未充分讨论
CLEAR 最重要的贡献不是某个具体技术,而是一个研究方向的明确定义:Context engineering for agents 不应该只是”检索”或”模板匹配”,而应该是一个生成式的问题。这个观点很可能在接下来 1-2 年内成为 agent 研究的主流方向。
金豆记于 2026-04-10