近期,来自商汤、清华大学、上海人工智能实验室等机构的研究人员提出了一种全新的框架——Ghost in the Minecraft(GITM)。GITM可以将大语言模型与基于文本的知识和记忆整合在一起,在经典游戏《我的世界》中打造出通才AI智能体。这一研究为通用人工智能(AGI)的发展迈出了重要一步。
GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率,成功解锁了完整的科技树的262个物品。同时,GITM在最受关注的「获取钻石」任务上取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。GITM的训练效率也达到新高度,环境交互步数只需已有方法的万分之一,单一CPU节点训练2天即可完成。
GITM的成功突破有助于推动通用人工智能(AGI)的研究目标加速实现,发展出能够在开放世界环境中像人一样进行感知、理解和交互的智能体。这将为机器人和自动驾驶等产业带来巨大突破和进步,有效解决现实世界中复杂环境和各类长尾问题,推动AI技术更大规模的产业落地。
项目主页: https://github.com/OpenGVLab/GITM
GITM能力和应用展望
GITM能够在《我的世界》中面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对。GITM还可以进一步应用在《我的世界》更加复杂的任务中,如建造避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。
这些任务展示了GITM强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。
商汤科技推进通用人工智能发展
作为全球人工智能领域的领军企业,商汤科技以「大模型+大算力」推进AGI(通用人工智能)发展的战略布局。商汤科技在多模态、多任务通用大模型领域快速发展,以「日日新SenseNova」大模型体系为核心,不断助力创新技术在智能汽车、智慧生活、智慧商业和智慧城市等领域的快速应用。
此外,商汤基于OpenDILab决策AI平台开发的AI模型DI-star在《星际争霸》中战胜了曾经的大中华区冠军,展示出强大的决策AI能力。GITM的成功将推动自动驾驶等应用处理复杂任务的能力更上一层楼,打破更高的技术天花板。
作为全球最畅销的游戏,《我的世界》已售出超过2.38亿份,每月活跃用户峰值超过1.4亿。在游戏中,数以亿计的玩家通过生存、探险和创造体验了一个数字化的第二人生,与现实世界在许多方面都有着密切的相似。《我的世界》可以被视为现实世界的缩影。在《我的世界》中开发一个能够掌握所有技术挑战的自动化智能体,就像是创造一个能够自主学习和掌握整个现实世界技术的人工智能。
Ghost in the Minecraft(GITM)是一个将大型语言模型(LLM)与基于文本的知识和记忆相结合的全新框架,旨在创建通用智能体来应对《我的世界》中的挑战。GITM具有以下特点:
广泛的任务覆盖率。所有之前的智能体组合在一起只能获得《我的世界》主世界科技树中所有项目30%的完成率,而GITM能解锁100%的项目。
高成功率。GITM在“获取钻石”任务上取得了67.5%的成功率,比SOTA(OpenAI的VPT)提高了47.5%。
卓越的训练效率。OpenAI的VPT需要进行6,480个GPU天的训练,DeepMind的DreamerV3需要进行17个GPU天的训练,而GITM不需要任何GPU,只需使用单个具有32个CPU核心的CPU节点进行2天的训练。
这项研究表明,LLM在开发能够处理长视界、复杂任务并适应开放世界环境中不确定性的智能体方面具有潜力。
GITM可以轻松应对各种生物群落、环境、白天和黑夜场景,甚至遇到怪物。
作为全球最畅销的游戏,《我的世界》已售出超过2.38亿份,每月活跃用户峰值超过1.4亿。在游戏中,数以亿计的玩家通过生存、探险和创造体验了一个数字化的第二人生,与现实世界在许多方面都有着密切的相似。《我的世界》可以被视为现实世界的缩影。在《我的世界》中开发一个能够掌握所有技术挑战的自动化智能体,就像是创造一个能够自主学习和掌握整个现实世界技术的人工智能。
Ghost in the Minecraft(GITM)是一个将大型语言模型(LLM)与基于文本的知识和记忆相结合的全新框架,旨在创建通用智能体来应对《我的世界》中的挑战。GITM具有以下特点:
广泛的任务覆盖率。所有之前的智能体组合在一起只能获得《我的世界》主世界科技树中所有项目30%的完成率,而GITM能解锁100%的项目。
高成功率。GITM在“获取钻石”任务上取得了67.5%的成功率,比SOTA(OpenAI的VPT)提高了47.5%。
卓越的训练效率。OpenAI的VPT需要进行6,480个GPU天的训练,DeepMind的DreamerV3需要进行17个GPU天的训练,而GITM不需要任何GPU,只需使用单个具有32个CPU核心的CPU节点进行2天的训练。
这项研究表明,LLM在开发能够处理长视界、复杂任务并适应开放世界环境中不确定性的智能体方面具有潜力。
GITM可以轻松应对各种生物群落、环境、白天和黑夜场景,甚至遇到怪物。