跳转到内容

UI-Voyager:从失败中进化的 GUI Agent

你能想象一个 AI 通过不断失败来变强吗?

传统的 AI 训练方法,通常只从”成功”中学习——成功的轨迹、正确的答案。但 UI-Voyager 做了一件反直觉的事:把失败变成最宝贵的学习资源

失败不是终点,而是学习的机会。

UI-Voyager 首先让 AI Agent 自主执行手机操作任务,收集大量的成功和失败轨迹。然后像淘金一样,筛选出高质量的数据来持续微调模型。

这个过程完全自主完成,不需要人类标注。

这是最精彩的部分。系统会对同一个任务执行多次:

  1. 找到分叉点 — 成功和失败的轨迹在哪里开始分道扬镳?
  2. 对比学习 — 在分叉点,成功做了什么,失败做了什么?
  3. 自我纠错 — 把成功经验当作”老师”,纠正错误决策

:::note 核心洞察 通过对比成功和失败轨迹,UI-Voyager 把稀疏的”最终对/错”信号,转化成了每个步骤都有反馈的密集学习信号。 :::

4B 参数模型在 AndroidWorld 基准上达到了 81.0% 的成功率——超越了人类平均表现。

  1. 失败比成功更有教育意义 — 如果我们能系统性地从失败中提取知识,AI 的学习效率将大幅提升
  2. 小而美 — 高质量的训练策略可以弥补模型规模的不足
  3. 自我进化的未来 — UI-Voyager 为 AI 的自主改进提供了一个具体的蓝图