SAGE 论文精读：多智能体自演化推理框架

论文信息

标题: SAGE: Multi-Agent Self-Evolution for LLM Reasoning
论文: arXiv 2603.15255
作者: Yulin Peng, Xinxin Zhu, Chenxing Wei 等
机构: 深圳大学 / 广东省人工智能与数字经济实验室 / Carleton University

一、问题定义与动机

当前基于可验证奖励的强化学习（RLVR）方法（如 DeepSeek-R1）在提升 LLM 推理能力方面效果显著，但严重依赖大规模人工标注数据集。这带来两个问题：1）可扩展性受限——随着模型能力逼近甚至超越人类，人类标注的数据可能不够”难”；2）无法自主适应——模型不能自己给自己出题、自己成长。

自博弈（self-play）方法（如 Absolute Zero、SPIRAL）试图减少外部数据依赖，但存在两个关键缺陷：缺乏显式规划和缺乏强质量控制。SAGE 试图同时解决这两个问题。

二、方法详解

核心架构：四智能体闭环协同进化

SAGE 从同一个 LLM 骨干实例化四个角色化智能体，共享参数：

Challenger（出题者）：从种子集采样参考题目，生成新题目和对应验证器。奖励 = (质量分 + 难度分 + 格式分) / 3。难度通过 Solver 的验证失败率计算。
Planner（规划者）：将题目分解为结构化多步计划。计划质量由 Critic 打分，低于阈值时直接丢弃。
Solver（解题者）：根据题目和（可选的）计划生成答案。正确性由外部验证器（数学符号计算 / 代码执行）决定。
Critic（评判者）：为 Challenger 出的题和 Planner 的计划打质量分，提供格式奖励。关键设计：正确性由外部验证器决定，Critic 不参与正确性判断。

关键创新点

难度抑制机制：Critic 评分低时只奖励质量不奖励难度，避免”出乱七八糟的难题来骗分”
计划门控：低质量计划不传给 Solver，防止错误计划误导推理
共享参数 + per-role advantage normalization：一个模型同时学四个角色，避免异构目标冲突

三、实验结果

主实验

Qwen-2.5-7B: LiveCodeBench +8.9%, OlympiadBench +10.7%
Qwen-3-4B: LiveCodeBench +9.1%（21.5% → 30.6%）
与 Absolute Zero 对比：SAGE 在所有模型上最稳定，AZR 在 4B 模型上数学能力显著退化（56.3% → 46.7%）

OOD 泛化

7B 模型 OOD 平均 +4.2%，且不牺牲 ID 性能。自生成课程确实能提升泛化能力。

消融实验

去掉 Challenger：LiveCodeBench 从 16.9% 暴跌到 9.0%
去掉 Solver：整体下降最大，确认 Solver 是推理能力主引擎
去掉 Critic：数学保持但代码退化，质量过滤对格式敏感任务更关键

训练动态

验证准确率在 step 100-140 达峰（69.5%），之后逐渐下降（step 240 降至 61.6%），表明过训练会导致对自生成课程的过度特化。

四、个人深度见解

优点

设计优雅：四个角色的分工直觉合理，难度抑制机制巧妙解决了自博弈中的常见问题
数据效率极高：仅 500 个种子样本就能驱动持续进化
稳定性好：per-role normalization 和 Critic 质量过滤提供了更好的训练稳定性

局限性

仅限于可验证域：数学和代码有明确验证器，但开放域（写作、对话、创意）无法直接应用
过训练问题：课程漂移虽被缓解但未完全解决
规模有限：最大只测了 7B 模型，70B+ 上的 scaling 效应未知
评估基准较窄：主要测了数学和代码，缺乏更广泛的 benchmark

对未来研究的启发

元学习方向：能否自动发现最优的角色分工？
跨域迁移：数学出题 → 代码解题这种跨域课程能否激发迁移学习？
层次化自进化：引入分层进化——Challenger 本身也由更强的 Challenger 来挑战
与过程奖励模型结合：引入 step-level 过程奖励，让 Planner 的学习信号更精细

五、相关工作定位

方法	核心思路	与 SAGE 的区别
DeepSeek-R1	RLVR + 人类数据集	SAGE 不依赖大规模人类数据
Absolute Zero	自生成题目 + 自验证	缺乏规划和质量控制
MAE	多智能体协同进化	SAGE 的 Critic 同时控制题目和计划质量
SPIRAL	零和博弈自博弈	SAGE 是非零和协同进化

SAGE 的核心定位：在自进化框架中引入显式规划和质量控制的闭环设计，是 Absolute Zero + 多智能体协同的增强版本。