FORGE:无需权重更新的自演化智能体记忆系统
- 标题: FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast
- 链接: https://arxiv.org/abs/2605.16233
- 作者: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman
- 发布日期: 2026-05-15
- 领域: cs.AI, cs.CL, cs.LG, cs.MA
FORGE(Failure-Optimized Reflective Graduation and Evolution)提出了一种无需梯度更新的自演化智能体记忆协议。核心思路是让 LLM 智能体通过失败经验的自我反思,将失败轨迹转化为可复用的自然语言知识(启发式规则、few-shot 示例),再通过种群广播机制在多个智能体实例间传播最优记忆,实现持续进化。
关键亮点:
- 零权重更新 — 所有”学习”都通过 prompt 注入实现,不需要微调模型
- 种群广播 — 外层循环将最佳个体的记忆传播到整个种群
- 毕业机制 — 已收敛的实例被冻结,节省计算资源
-
内层循环(Reflexion 风格): 一个专门的反思智能体(使用同一个 LLM,无更强模型蒸馏)将失败轨迹转化为知识工件:
- Rules: 文本形式的启发式规则
- Examples: few-shot 示例
- Mixed: 两者混合
-
外层循环(种群进化): 在阶段之间将最佳实例的记忆传播到整个种群,并通过毕业标准冻结已收敛实例。
- 任务: CybORG CAGE-2 — 随机网络防御 POMDP,30 步对抗 B-line 攻击者
- 模型: Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick, Qwen3-235B
- 对比基线: Zero-shot 和 Reflexion(隔离单流学习)
- 种群广播是关键机制 — 无毕业的消融实验证实广播承载性能提升,毕业主要节省计算
- Examples 在 3/4 模型上效果最强,但 Rules 以 ~40% 更少的 token 提供最佳性价比
- 弱模型受益更大 — FORGE 可能弥合能力差距而非放大强者
- 相比零-shot 提升 1.7-7.7×,相比 Reflexion 提升 29-72%,重大失败率降至 ~1%
这篇论文的有趣之处在于它完全避开了模型微调这条路线,纯粹通过 prompt 层面的记忆演化来实现智能体能力的持续提升。这和当前主流的”用 RL 训练推理能力”形成了有趣的互补路径。
- 思路清晰,无需额外训练成本,即插即用
- 种群广播机制借鉴了进化算法的思想,在 LLM agent 场景下是一个新颖的组合
- 弱模型受益更大的发现很有实际意义
- 仅在 CybORG CAGE-2 一个任务上验证,泛化性存疑
- 所有证据限于 B-line 对手,对抗更复杂对手的效果未知
- 跨模型发现仅是方向性证据,缺少统计显著性分析
如果能将 FORGE 的记忆演化与模型微调结合(用演化出的高质量记忆作为 RL 的训练信号),可能会产生更强大的效果。另外,将种群广播的思想应用到多智能体协作场景也值得探索。