Wang, J. , Xu, H., Jia, H., Zhang, X., Yan, M., Shen, W., … & Sang, J. (2024). Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration. arXiv preprint arXiv:2406.01014.✅
X-PLUG. (2024). MobileAgent: The Powerful Mobile Device Operation Assistant Family. GitHub repository. https://github.com/X-PLUG/MobileAgent
ModelScope. (2024). ModelScope-Agent: An agent framework connecting models in ModelScope with the world. GitHub repository. https://github.com/modelscope/modelscope-agent
近日,人工智能手机操作助手Mobile-Agent迎来了重大升级。其团队发布了全新的Mobile-Agent-v2,通过引入多智能体协作架构,大幅提升了手机操作的智能化水平。本文将为您详细解读Mobile-Agent-v2的创新之处及其强大功能。
Mobile-Agent的发展历程
Mobile-Agent于今年年初首次亮相,凭借出色的自动化手机操作能力,迅速引起业界广泛关注。短短5个月时间,其GitHub仓库就收获了2000多个Star。
Mobile-Agent采用纯视觉方案,通过视觉感知和操作工具实现智能体在手机上的自主操作,无需依赖系统级UI文件。借助强大的中枢模型,Mobile-Agent可以即插即用,无需额外训练。
Mobile-Agent-v2的重大升级
最新发布的Mobile-Agent-v2在原有基础上实现了几项关键突破:
目前,Mobile-Agent-v2的论文和代码均已开源发布。
多智能体协作架构
Mobile-Agent-v2最大的创新在于引入了多智能体协作架构,包括三个关键角色:
这一架构有效解决了单智能体方案面临的两大挑战:
为应对这些挑战,Mobile-Agent-v2做出了如下设计:
强大的跨应用操作能力
从团队公布的演示视频可以看出,Mobile-Agent-v2展现了出色的跨应用操作能力。
例如,在一个跨应用任务中,用户要求Mobile-Agent-v2查看聊天软件中的未读消息,然后按照消息要求完成任务。Mobile-Agent-v2成功打开WhatsApp查看了指定联系人的消息,随后按要求打开TikTok搜索宠物视频并分享。整个过程涉及多个应用切换,Mobile-Agent-v2都能准确完成。
另一个例子展示了Mobile-Agent-v2在社交媒体平台X(原Twitter)上的操作能力。它能够精准地搜索指定用户、关注并评论,即使遇到推荐用户弹窗等干扰也能灵活应对。
此外,Mobile-Agent-v2还展示了在YouTube、小红书、微信等复杂应用中的操作能力,包括搜索视频、发表评论、回复消息等。这些操作都需要理解复杂的UI布局和上下文信息,Mobile-Agent-v2都能出色完成。
性能评估
论文中采用了动态评估方法,选择10个应用(5个系统应用和5个第三方应用)进行测试,涵盖英文和非英文场景。每个应用设计了2条基础指令和2条进阶指令,另外还设计了4条跨应用操作指令。
评估结果显示,Mobile-Agent-v2在各项指标上都实现了全面提升:
通过引入额外的操作知识,Mobile-Agent-v2的性能还能进一步提升。
技术创新的价值
Mobile-Agent-v2的多智能体协作架构为解决长序列操作中的挑战提供了新思路。分析失败案例发现,Mobile-Agent的失败操作大多集中在任务后期,而Mobile-Agent-v2的失败则分布更均匀,说明新架构有效缓解了长序列操作的困难。
这一技术突破使得Mobile-Agent-v2能够更好地应对复杂的跨应用场景,为老年人和视障群体提供便利。例如,通过简单的语音指令就能帮助用户完成复杂的打车任务。
未来展望
Mobile-Agent-v2的出色表现为智能手机操作助手的发展开辟了新天地。未来,我们可以期待看到更多基于此技术的创新应用,例如:
总之,Mobile-Agent-v2展现了AI在智能手机操作领域的巨大潜力,相信随着技术的不断进步,未来会有更多令人惊叹的应用场景被开发出来。
参考文献