借一步网
作者:
在
在这个数字化飞速发展的时代,图形用户界面(GUI)代理已经成为我们的生活中不可或缺的一部分。随着多模态大型语言模型(MLLMs)的崛起,这些代理正在迅速转变,从受控的模拟环境走向更复杂的、真实世界的应用场景。然而,如何让这些代理像我们人类一样,依靠视觉进行导航,仍然是一个亟待解决的挑战。
人类在互动时,主要依赖于对视觉信息的感知。我们通过键盘、鼠标或触摸屏与数字世界互动。这一过程的基础在于,代理能够准确地感知界面元素并进行相应的操作。然而,现有的GUI代理多依赖于文本基础的表示,例如HTML或无障碍树(a11y trees),这些表示虽然有用,但往往会引入噪声、不完整性和计算开销。
我们提倡一种人类般的体现方式,即让GUI代理完全依赖视觉进行环境感知,并直接在GUI上进行像素级操作。关键在于视觉基础模型,它能够将GUI元素的各种引用表达准确映射到其在界面上的坐标。通过这种方式,代理可以更灵活、更高效地完成任务。
为了解决上述问题,我们开发了UGround,一个强大的通用视觉基础模型。UGround通过合成的网页数据集进行训练,这一数据集中包含了1000万个GUI元素及其对应的引用表达,覆盖了130万个屏幕截图。我们的实验表明,UGround在多个基准测试中显著优于现有模型,尤其是在GUI元素的精确定位上,提升幅度可达20%。
在我们的框架中,UGround的工作流程如下:
我们的实验涵盖了多个平台,包括Web、移动和桌面,展示了UGround在各种环境下的优越性能。例如,在ScreenSpot基准测试中,UGround的准确率远超现有的视觉基础模型,尤其在移动和桌面UI的表现上显著优于传统方法。
UGround的成功验证了仅通过视觉感知进行操作的可行性,并为未来GUI代理的发展奠定了基础。尽管如此,我们仍然面临一些挑战,例如长尾元素的识别和处理,以及如何在缺乏文本支持的情况下完成复杂任务。未来的研究将致力于进一步提升UGround的通用性和适应性,为数字世界的导航提供更为强大且灵活的解决方案。
通知
在这个数字化飞速发展的时代,图形用户界面(GUI)代理已经成为我们的生活中不可或缺的一部分。随着多模态大型语言模型(MLLMs)的崛起,这些代理正在迅速转变,从受控的模拟环境走向更复杂的、真实世界的应用场景。然而,如何让这些代理像我们人类一样,依靠视觉进行导航,仍然是一个亟待解决的挑战。
👁️🗨️ 人类的视觉感知与图形用户界面
人类在互动时,主要依赖于对视觉信息的感知。我们通过键盘、鼠标或触摸屏与数字世界互动。这一过程的基础在于,代理能够准确地感知界面元素并进行相应的操作。然而,现有的GUI代理多依赖于文本基础的表示,例如HTML或无障碍树(a11y trees),这些表示虽然有用,但往往会引入噪声、不完整性和计算开销。
🧩 视觉基础的代理是什么?
我们提倡一种人类般的体现方式,即让GUI代理完全依赖视觉进行环境感知,并直接在GUI上进行像素级操作。关键在于视觉基础模型,它能够将GUI元素的各种引用表达准确映射到其在界面上的坐标。通过这种方式,代理可以更灵活、更高效地完成任务。
📊 UGround:通用的视觉基础模型
为了解决上述问题,我们开发了UGround,一个强大的通用视觉基础模型。UGround通过合成的网页数据集进行训练,这一数据集中包含了1000万个GUI元素及其对应的引用表达,覆盖了130万个屏幕截图。我们的实验表明,UGround在多个基准测试中显著优于现有模型,尤其是在GUI元素的精确定位上,提升幅度可达20%。
💡 关键贡献
🤖 视觉基础模型的工作原理
在我们的框架中,UGround的工作流程如下:
📈 实验与结果
我们的实验涵盖了多个平台,包括Web、移动和桌面,展示了UGround在各种环境下的优越性能。例如,在ScreenSpot基准测试中,UGround的准确率远超现有的视觉基础模型,尤其在移动和桌面UI的表现上显著优于传统方法。
🔍 结论与未来方向
UGround的成功验证了仅通过视觉感知进行操作的可行性,并为未来GUI代理的发展奠定了基础。尽管如此,我们仍然面临一些挑战,例如长尾元素的识别和处理,以及如何在缺乏文本支持的情况下完成复杂任务。未来的研究将致力于进一步提升UGround的通用性和适应性,为数字世界的导航提供更为强大且灵活的解决方案。
📚 参考文献