UI-Voyager：从失败中进化的 GUI Agent

核心问题

你能想象一个 AI 通过不断失败来变强吗？

传统的 AI 训练方法，通常只从”成功”中学习——成功的轨迹、正确的答案。但 UI-Voyager 做了一件反直觉的事：把失败变成最宝贵的学习资源。

失败不是终点，而是学习的机会。

UI-Voyager 首先让 AI Agent 自主执行手机操作任务，收集大量的成功和失败轨迹。然后像淘金一样，筛选出高质量的数据来持续微调模型。

这个过程完全自主完成，不需要人类标注。

这是最精彩的部分。系统会对同一个任务执行多次：

:::note 核心洞察通过对比成功和失败轨迹，UI-Voyager 把稀疏的”最终对/错”信号，转化成了每个步骤都有反馈的密集学习信号。 :::

4B 参数模型在 AndroidWorld 基准上达到了 81.0% 的成功率——超越了人类平均表现。