UI-Voyager:从失败中进化的 GUI Agent
你能想象一个 AI 通过不断失败来变强吗?
传统的 AI 训练方法,通常只从”成功”中学习——成功的轨迹、正确的答案。但 UI-Voyager 做了一件反直觉的事:把失败变成最宝贵的学习资源。
失败不是终点,而是学习的机会。
两阶段学习框架
Section titled “两阶段学习框架”阶段一:拒绝微调(RFT)
Section titled “阶段一:拒绝微调(RFT)”UI-Voyager 首先让 AI Agent 自主执行手机操作任务,收集大量的成功和失败轨迹。然后像淘金一样,筛选出高质量的数据来持续微调模型。
这个过程完全自主完成,不需要人类标注。
阶段二:组相对自蒸馏(GRSD)
Section titled “阶段二:组相对自蒸馏(GRSD)”这是最精彩的部分。系统会对同一个任务执行多次:
- 找到分叉点 — 成功和失败的轨迹在哪里开始分道扬镳?
- 对比学习 — 在分叉点,成功做了什么,失败做了什么?
- 自我纠错 — 把成功经验当作”老师”,纠正错误决策
:::note 核心洞察 通过对比成功和失败轨迹,UI-Voyager 把稀疏的”最终对/错”信号,转化成了每个步骤都有反馈的密集学习信号。 :::
4B 参数模型在 AndroidWorld 基准上达到了 81.0% 的成功率——超越了人类平均表现。
- 失败比成功更有教育意义 — 如果我们能系统性地从失败中提取知识,AI 的学习效率将大幅提升
- 小而美 — 高质量的训练策略可以弥补模型规模的不足
- 自我进化的未来 — UI-Voyager 为 AI 的自主改进提供了一个具体的蓝图