🌍 数字世界的导航：人类的方式与GUI代理的未来

作者：

在

在这个数字化飞速发展的时代，图形用户界面（GUI）代理已经成为我们的生活中不可或缺的一部分。随着多模态大型语言模型（MLLMs）的崛起，这些代理正在迅速转变，从受控的模拟环境走向更复杂的、真实世界的应用场景。然而，如何让这些代理像我们人类一样，依靠视觉进行导航，仍然是一个亟待解决的挑战。

👁️‍🗨️ 人类的视觉感知与图形用户界面

人类在互动时，主要依赖于对视觉信息的感知。我们通过键盘、鼠标或触摸屏与数字世界互动。这一过程的基础在于，代理能够准确地感知界面元素并进行相应的操作。然而，现有的GUI代理多依赖于文本基础的表示，例如HTML或无障碍树（a11y trees），这些表示虽然有用，但往往会引入噪声、不完整性和计算开销。

🧩 视觉基础的代理是什么？

我们提倡一种人类般的体现方式，即让GUI代理完全依赖视觉进行环境感知，并直接在GUI上进行像素级操作。关键在于视觉基础模型，它能够将GUI元素的各种引用表达准确映射到其在界面上的坐标。通过这种方式，代理可以更灵活、更高效地完成任务。

graph TD; A[用户输入] –> B[图形界面] B –> C[视觉感知] C –> D[像素级操作] D –> E[任务完成]

📊 UGround：通用的视觉基础模型

为了解决上述问题，我们开发了UGround，一个强大的通用视觉基础模型。UGround通过合成的网页数据集进行训练，这一数据集中包含了1000万个GUI元素及其对应的引用表达，覆盖了130万个屏幕截图。我们的实验表明，UGround在多个基准测试中显著优于现有模型，尤其是在GUI元素的精确定位上，提升幅度可达20%。

💡 关键贡献

人类般的体现：我们首次提出，GUI代理应完全通过视觉感知和像素级操作来实现任务。
合成数据的有效性：利用简单的合成数据和LLaVA架构的适应性，我们成功构建了大量高质量的训练数据。
全面评估：我们进行了最全面的评估，涵盖了六个基准测试，展示了UGround的强大性能。

🤖 视觉基础模型的工作原理

在我们的框架中，UGround的工作流程如下：

视觉感知：代理通过屏幕截图获取环境信息，而不是依赖文本描述。
计划与执行：通过多模态语言模型生成文本计划，并将其转化为具体的操作指令。
精准定位：UGround负责将文本计划中的引用表达转换为具体的像素坐标，实现精确操作。

flowchart LR; A[视觉输入屏幕截图] –> B[多模态语言模型] B –> C[生成操作计划] C –> D[UGround模型] D –> E[执行像素级操作]

📈 实验与结果

我们的实验涵盖了多个平台，包括Web、移动和桌面，展示了UGround在各种环境下的优越性能。例如，在ScreenSpot基准测试中，UGround的准确率远超现有的视觉基础模型，尤其在移动和桌面UI的表现上显著优于传统方法。

🔍 结论与未来方向

UGround的成功验证了仅通过视觉感知进行操作的可行性，并为未来GUI代理的发展奠定了基础。尽管如此，我们仍然面临一些挑战，例如长尾元素的识别和处理，以及如何在缺乏文本支持的情况下完成复杂任务。未来的研究将致力于进一步提升UGround的通用性和适应性，为数字世界的导航提供更为强大且灵活的解决方案。

📚 参考文献

Boyu Gou et al. “Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents.” arXiv preprint arXiv:2410.05243 (2024).
Zheng et al. “SeeAct: A Framework for Building GUI Agents.” (2024).
Liu et al. “LLaVA: A Large Language Model for Visual Grounding.” (2024).
Cheng et al. “ScreenSpot: A Benchmark for Visual Grounding in GUIs.” (2024).

AGI

发表回复取消回复

要发表评论，您必须先登录。