点对了按钮但点错了屏幕的 GUI Agent
· 阅读需 12 分钟
一个计算机使用智能体拍摄了一张截图,对其进行推理,决定点击像素点 (840, 612) 处的“确认”按钮,并发送了点击指令。当光标落下时,一个弹窗出现了。三秒钟前还是“确认”的像素点,现在变成了“删除”。该智能体完全按照计划执行了操作。但它的计划是针对一个已不再存在的屏幕制定的。
这不是定位(grounding)错误。模型正确识别了按钮。这也不是推理错误,计划本身是合理的。这是一个时序错误(timing error)——这是 GUI 自动化中监测最不足的失败类别——而你的测试套件几乎肯定没有覆盖它,因为你的测试环境在观察和行动之间从未发生过变化。
一个令人不安的测量结果:最近一项针对真实 Ubuntu 工作负载下的桌面智能体的研究发现,从智能体观察屏幕到基于该观察采取行动之间,平均存在 6.51 秒 的间隔。对于 UI 来说,6.5 秒是漫长的永恒。通知会弹出,懒加载列表完成加载,动画趋于稳定,焦点发生转移。智能体对屏幕的心理模型是有保质期的,但几乎没有智能体框架会这样对待它。
