🌍 数字世界的导航:人类的方式与GUI代理的未来

在这个数字化飞速发展的时代,图形用户界面(GUI)代理已经成为我们的生活中不可或缺的一部分。随着多模态大型语言模型(MLLMs)的崛起,这些代理正在迅速转变,从受控的模拟环境走向更复杂的、真实世界的应用场景。然而,如何让这些代理像我们人类一样,依靠视觉进行导航,仍然是一个亟待解决的挑战。

👁️‍🗨️ 人类的视觉感知与图形用户界面

人类在互动时,主要依赖于对视觉信息的感知。我们通过键盘、鼠标或触摸屏与数字世界互动。这一过程的基础在于,代理能够准确地感知界面元素并进行相应的操作。然而,现有的GUI代理多依赖于文本基础的表示,例如HTML或无障碍树(a11y trees),这些表示虽然有用,但往往会引入噪声、不完整性和计算开销。

🧩 视觉基础的代理是什么?

我们提倡一种人类般的体现方式,即让GUI代理完全依赖视觉进行环境感知,并直接在GUI上进行像素级操作。关键在于视觉基础模型,它能够将GUI元素的各种引用表达准确映射到其在界面上的坐标。通过这种方式,代理可以更灵活、更高效地完成任务。

graph TD; A[用户输入] –> B[图形界面] B –> C[视觉感知] C –> D[像素级操作] D –> E[任务完成]

📊 UGround:通用的视觉基础模型

为了解决上述问题,我们开发了UGround,一个强大的通用视觉基础模型。UGround通过合成的网页数据集进行训练,这一数据集中包含了1000万个GUI元素及其对应的引用表达,覆盖了130万个屏幕截图。我们的实验表明,UGround在多个基准测试中显著优于现有模型,尤其是在GUI元素的精确定位上,提升幅度可达20%。

💡 关键贡献

  1. 人类般的体现:我们首次提出,GUI代理应完全通过视觉感知和像素级操作来实现任务。
  2. 合成数据的有效性:利用简单的合成数据和LLaVA架构的适应性,我们成功构建了大量高质量的训练数据。
  3. 全面评估:我们进行了最全面的评估,涵盖了六个基准测试,展示了UGround的强大性能。

🤖 视觉基础模型的工作原理

在我们的框架中,UGround的工作流程如下:

  1. 视觉感知:代理通过屏幕截图获取环境信息,而不是依赖文本描述。
  2. 计划与执行:通过多模态语言模型生成文本计划,并将其转化为具体的操作指令。
  3. 精准定位:UGround负责将文本计划中的引用表达转换为具体的像素坐标,实现精确操作。
flowchart LR; A[视觉输入 屏幕截图] –> B[多模态语言模型] B –> C[生成操作计划] C –> D[UGround模型] D –> E[执行像素级操作]

📈 实验与结果

我们的实验涵盖了多个平台,包括Web、移动和桌面,展示了UGround在各种环境下的优越性能。例如,在ScreenSpot基准测试中,UGround的准确率远超现有的视觉基础模型,尤其在移动和桌面UI的表现上显著优于传统方法。

🔍 结论与未来方向

UGround的成功验证了仅通过视觉感知进行操作的可行性,并为未来GUI代理的发展奠定了基础。尽管如此,我们仍然面临一些挑战,例如长尾元素的识别和处理,以及如何在缺乏文本支持的情况下完成复杂任务。未来的研究将致力于进一步提升UGround的通用性和适应性,为数字世界的导航提供更为强大且灵活的解决方案。

📚 参考文献

  1. Boyu Gou et al. “Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents.” arXiv preprint arXiv:2410.05243 (2024).
  2. Zheng et al. “SeeAct: A Framework for Building GUI Agents.” (2024).
  3. Liu et al. “LLaVA: A Large Language Model for Visual Grounding.” (2024).
  4. Cheng et al. “ScreenSpot: A Benchmark for Visual Grounding in GUIs.” (2024).

0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最多投票
最新 最旧
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x