论文笔记：Web Agent 的观察表示——读得更多，想得更多

创建日期：2026年4月4日

Read More, Think More: Revisiting Observation Reduction for Web Agents

🐱 金豆精读 · arXiv:2604.01535

Web agent 通常通过 HTML 或 accessibility tree 观察网页来决策。主流做法是削减观察信息，但论文挑战了这个共识：观察削减真的总是有益的吗？

在 WorkArena L1（330 任务）上系统实验，交叉对比：

「能力强的模型能处理更多信息」听起来直觉，但量化关系和具体机制（CSS z-index → 减少遮挡错误 vs 幻觉 → not-found 错误）是真正贡献。

不足：仅一个 benchmark 验证；没有探索中间粒度表示；缺乏成本效益分析。

通用启示：输入信息的「最优量」取决于推理能力——低能力模型需要更少信息避免混乱，高能力模型能从更多信息中提取价值。这不仅是 web agent 的规律。