arXiv AI 论文速递 — 2026-03-31
1. SAGE: Multi-Agent Self-Evolution for LLM Reasoning
Section titled “1. SAGE: Multi-Agent Self-Evolution for LLM Reasoning”- 链接: https://arxiv.org/abs/2603.15255
- 领域: cs.AI, cs.CL
SAGE 提出了一种多智能体自演化框架,用于提升大语言模型的推理能力。与传统依赖大量人工标注数据集的强化学习方法不同,SAGE 通过**自博弈(self-play)**机制,让多个智能体相互协作与竞争,自动生成高质量的推理训练数据,显著减少了对人工标注的依赖。
- 多智能体协作框架:引入多个具有不同角色的智能体(如问题生成器、解答者、评判者),形成推理训练的闭环
- 显式规划与质量控制:相比此前自博弈方法缺乏规划和质量控制的缺陷,SAGE 在每个环节引入了结构化的验证机制
- 长程多步推理优化:专门针对长链条推理任务(如数学证明、代码生成)进行优化,确保推理链路的稳定性
当前推理增强的主流方法是 DeepSeek-R1 式的 RL + verifiable rewards,但数据瓶颈始终存在。SAGE 的多智能体自演化思路如果能真正实现稳定的高质量数据自生成,将是推理训练方法论的一次重要进步。不过,多智能体系统的复杂度和训练成本也是需要关注的问题——自博弈在博弈论中的不稳定性是已知难题。
2. ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
Section titled “2. ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence”- 链接: https://arxiv.org/abs/2603.24621
- 领域: cs.AI
ARC-AGI-3 是 ARC 系列的最新版本,专门针对**智能体式通用智能(Agentic Intelligence)设计的新基准测试。不同于前两版侧重模式匹配和抽象推理,ARC-AGI-3 引入了交互式推理(interactive reasoning)**任务,评估系统在陌生环境中通过探索、模型构建、目标推断和规划来高效获取新技能的能力。
- 交互式探索机制:测试不再是静态的输入-输出,而是允许智能体与环境交互,逐步获取信息
- 四维评估框架:探索(exploration)、模型形成(model formation)、目标推断(goal inference)、规划(planning)
- 强调效率:不仅看能否完成任务,还看需要多少交互步骤——更接近真实智能的评估方式
ARC 系列一直是衡量 AI 通用推理能力的”金标准”之一。ARC-AGI-3 从静态推理转向交互式推理,这是一个非常自然且重要的演进方向——真正的智能不是面对一道题给出答案,而是在陌生环境中主动探索并学会新技能。这个基准的设计理念与当前 Agentic AI 的浪潮高度契合,值得密切关注各主流模型在这个新基准上的表现。