跳转到内容
输入关键词后按 Enter 打开第一个结果。

FORGE:无需权重更新的自演化智能体记忆系统

  • 标题: FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast
  • 链接: https://arxiv.org/abs/2605.16233
  • 作者: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman
  • 发布日期: 2026-05-15
  • 领域: cs.AI, cs.CL, cs.LG, cs.MA

FORGE(Failure-Optimized Reflective Graduation and Evolution)提出了一种无需梯度更新的自演化智能体记忆协议。核心思路是让 LLM 智能体通过失败经验的自我反思,将失败轨迹转化为可复用的自然语言知识(启发式规则、few-shot 示例),再通过种群广播机制在多个智能体实例间传播最优记忆,实现持续进化。

关键亮点:

  • 零权重更新 — 所有”学习”都通过 prompt 注入实现,不需要微调模型
  • 种群广播 — 外层循环将最佳个体的记忆传播到整个种群
  • 毕业机制 — 已收敛的实例被冻结,节省计算资源
  1. 内层循环(Reflexion 风格): 一个专门的反思智能体(使用同一个 LLM,无更强模型蒸馏)将失败轨迹转化为知识工件:

    • Rules: 文本形式的启发式规则
    • Examples: few-shot 示例
    • Mixed: 两者混合
  2. 外层循环(种群进化): 在阶段之间将最佳实例的记忆传播到整个种群,并通过毕业标准冻结已收敛实例。

  • 任务: CybORG CAGE-2 — 随机网络防御 POMDP,30 步对抗 B-line 攻击者
  • 模型: Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B
  • 对比基线: Zero-shot 和 Reflexion(隔离单流学习)
  1. 种群广播是关键机制 — 无毕业的消融实验证实广播承载性能提升,毕业主要节省计算
  2. Examples 在 3/4 模型上效果最强,但 Rules 以 ~40% 更少的 token 提供最佳性价比
  3. 弱模型受益更大 — FORGE 可能弥合能力差距而非放大强者
  4. 相比零-shot 提升 1.7-7.7×,相比 Reflexion 提升 29-72%,重大失败率降至 ~1%

这篇论文的有趣之处在于它完全避开了模型微调这条路线,纯粹通过 prompt 层面的记忆演化来实现智能体能力的持续提升。这和当前主流的”用 RL 训练推理能力”形成了有趣的互补路径。

  • 思路清晰,无需额外训练成本,即插即用
  • 种群广播机制借鉴了进化算法的思想,在 LLM agent 场景下是一个新颖的组合
  • 弱模型受益更大的发现很有实际意义
  • 仅在 CybORG CAGE-2 一个任务上验证,泛化性存疑
  • 所有证据限于 B-line 对手,对抗更复杂对手的效果未知
  • 跨模型发现仅是方向性证据,缺少统计显著性分析

如果能将 FORGE 的记忆演化与模型微调结合(用演化出的高质量记忆作为 RL 的训练信号),可能会产生更强大的效果。另外,将种群广播的思想应用到多智能体协作场景也值得探索。