近日,人工智能手机操作助手Mobile-Agent迎来了重大升级。其团队发布了全新的Mobile-Agent-v2,通过引入多智能体协作架构,大幅提升了手机操作的智能化水平。本文将为您详细解读Mobile-Agent-v2的创新之处及其强大功能。
Mobile-Agent的发展历程
Mobile-Agent于今年年初首次亮相,凭借出色的自动化手机操作能力,迅速引起业界广泛关注。短短5个月时间,其GitHub仓库就收获了2000多个Star。
Mobile-Agent采用纯视觉方案,通过视觉感知和操作工具实现智能体在手机上的自主操作,无需依赖系统级UI文件。借助强大的中枢模型,Mobile-Agent可以即插即用,无需额外训练。
Mobile-Agent-v2的重大升级
最新发布的Mobile-Agent-v2在原有基础上实现了几项关键突破:
- 保留纯视觉方案
- 引入多智能体协作架构
- 增强任务拆解、跨应用操作和多语言能力
目前,Mobile-Agent-v2的论文和代码均已开源发布。
多智能体协作架构
Mobile-Agent-v2最大的创新在于引入了多智能体协作架构,包括三个关键角色:
- 规划智能体(Planning Agent):生成任务进度,使操作历史导航更高效。
- 决策智能体(Decision Agent):执行具体操作,并更新记忆单元中的关键信息。
- 反思智能体(Reflection Agent):观察每次操作的结果,处理可能出现的错误。
这一架构有效解决了单智能体方案面临的两大挑战:
- 任务进度导航:随着操作次数增加,操作历史序列变得冗长,给智能体追踪进度带来困难。
- 焦点内容导航:纯文本的任务进度会导致屏幕信息丢失,智能体无法获取关键信息。
为应对这些挑战,Mobile-Agent-v2做出了如下设计:
- 规划智能体将冗长的操作历史转化为简洁的纯文本任务进度。
- 引入记忆单元,由决策智能体负责更新其中的任务关键信息。
- 反思智能体负责监测操作前后的屏幕状态变化,判断操作正确性。
强大的跨应用操作能力
从团队公布的演示视频可以看出,Mobile-Agent-v2展现了出色的跨应用操作能力。
例如,在一个跨应用任务中,用户要求Mobile-Agent-v2查看聊天软件中的未读消息,然后按照消息要求完成任务。Mobile-Agent-v2成功打开WhatsApp查看了指定联系人的消息,随后按要求打开TikTok搜索宠物视频并分享。整个过程涉及多个应用切换,Mobile-Agent-v2都能准确完成。
另一个例子展示了Mobile-Agent-v2在社交媒体平台X(原Twitter)上的操作能力。它能够精准地搜索指定用户、关注并评论,即使遇到推荐用户弹窗等干扰也能灵活应对。
此外,Mobile-Agent-v2还展示了在YouTube、小红书、微信等复杂应用中的操作能力,包括搜索视频、发表评论、回复消息等。这些操作都需要理解复杂的UI布局和上下文信息,Mobile-Agent-v2都能出色完成。
性能评估
论文中采用了动态评估方法,选择10个应用(5个系统应用和5个第三方应用)进行测试,涵盖英文和非英文场景。每个应用设计了2条基础指令和2条进阶指令,另外还设计了4条跨应用操作指令。
评估结果显示,Mobile-Agent-v2在各项指标上都实现了全面提升:
- 在英文应用中,基础指令完成率从73.7%提升至84.2%,进阶指令从57.9%提升至68.4%。
- 在非英文应用中,基础指令完成率从63.2%提升至78.9%,进阶指令从47.4%提升至63.2%。
- 跨应用操作的完成率从50.0%大幅提升至75.0%。
通过引入额外的操作知识,Mobile-Agent-v2的性能还能进一步提升。
技术创新的价值
Mobile-Agent-v2的多智能体协作架构为解决长序列操作中的挑战提供了新思路。分析失败案例发现,Mobile-Agent的失败操作大多集中在任务后期,而Mobile-Agent-v2的失败则分布更均匀,说明新架构有效缓解了长序列操作的困难。
这一技术突破使得Mobile-Agent-v2能够更好地应对复杂的跨应用场景,为老年人和视障群体提供便利。例如,通过简单的语音指令就能帮助用户完成复杂的打车任务。
未来展望
Mobile-Agent-v2的出色表现为智能手机操作助手的发展开辟了新天地。未来,我们可以期待看到更多基于此技术的创新应用,例如:
- 针对特定人群的定制化智能助手
- 更复杂的跨设备、跨平台操作能力
- 与其他AI技术的深度融合,如语音交互、AR等
总之,Mobile-Agent-v2展现了AI在智能手机操作领域的巨大潜力,相信随着技术的不断进步,未来会有更多令人惊叹的应用场景被开发出来。
参考文献
- Wang, J., Xu, H., Jia, H., Zhang, X., Yan, M., Shen, W., … & Sang, J. (2024). Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration. arXiv preprint arXiv:2406.01014.
- X-PLUG. (2024). MobileAgent: The Powerful Mobile Device Operation Assistant Family. GitHub repository. https://github.com/X-PLUG/MobileAgent
- ModelScope. (2024). ModelScope-Agent: An agent framework connecting models in ModelScope with the world. GitHub repository. https://github.com/modelscope/modelscope-agent