实验结果表明,AGENTGEN在领域内任务上比原始的LLama3-8B模型提高了5倍以上(11.67 vs 1.67),总体表现超过了GPT-3.5。在某些特定任务上,它甚至超越了GPT-4的表现。在领域外任务上,AGENTGEN也展现了类似的实验结果。具体而言,它显著提高了成功率,在Alfworld和BabyAI上分别实现了29.1和4.47的提升。在Alfworld上,AGENTGEN甚至超过了GPT-3.5的表现(29.1 vs 17.2)。
(参考文献: Hu, M. , Zhao, P., Xu, C., Sun, Q., Lou, J., Lin, Q., … & Zhang, D. (2024). AGENTGEN: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation. arXiv preprint arXiv:2408.00764.)✅
在人工智能领域,基于大型语言模型(LLM)的AI代理正引发新一轮技术革命。这些AI代理能够像人类一样感知环境、做出决策并执行行动,在机器人规划、旅行规划等领域展现出巨大潜力。然而,如何提升AI代理的规划能力一直是一个挑战。最近,微软研究院联合香港大学的研究人员提出了一种名为AGENTGEN的创新框架,有望在这一问题上取得重大突破。
传统方法存在局限性
目前提升AI代理规划能力的主流方法是通过指令微调(instruction tuning)来训练大型语言模型。具体而言,研究人员会构建一些规划任务和环境,让AI代理在其中执行并收集高质量的轨迹数据(动作-观察序列),然后用这些数据来微调语言模型。
然而,这种方法存在一个关键瓶颈:构建多样化的环境和任务需要大量人工劳动。设计一个环境不仅要定义丰富而实用的场景,还需要编程技能来实现。制定任务则需要创建一套难度递进的任务集。由于这些限制,现有研究通常只能使用少量环境来生成训练数据。
AGENTGEN:自动构建海量环境和任务
为了突破这一瓶颈,微软研究院联合香港大学的研究人员提出了AGENTGEN框架。该框架利用大型语言模型自动构建多样化的环境和规划任务,将可用的环境数量从几个扩展到数百个。AGENTGEN主要包括两个阶段:
1. 环境生成
为了生成足够多样化的环境,研究人员使用了一个灵感语料库作为上下文。具体来说,他们首先从灵感语料库中随机选择一段文本,然后提示大型语言模型生成相关的环境规范,包括动作、限制等细节。例如,从语料库中选择”如何用花生酱粉提升你的饮食?”这段文本后,语言模型生成了一个相关的环境规范:”你是一名营养师,负责创作一本新的健康食谱,将花生酱粉作为关键成分”。
接下来,研究人员让语言模型根据这个规范生成相应的代码,可以是Python、PDDL(Planning Domain Definition Language)或其他特定领域语言。他们还构建了一个环境库,作为上下文示例,并通过迭代方式不断扩充高质量的新生成环境。
2. 任务生成
在生成环境的基础上,AGENTGEN还会创建多个规划任务。为了实现任务难度的多样性,研究人员提出了一种双向演化方法BI-EVOL。具体而言,语言模型首先生成一些随机规划任务,然后通过施加约束朝简化和增加难度两个方向演化这些任务。这种方法创建的任务集具有平滑的难度曲线,有助于语言模型更顺畅地获取规划技能。
实验验证AGENTGEN有效性
为了验证AGENTGEN的有效性,研究人员基于PDDL语言合成了环境和规划任务,构建了一个包含592个环境、每个环境20个任务的数据集。他们使用独立于领域的规划器获得了7,246条高质量轨迹。随后,研究人员使用这些轨迹数据对一系列语言模型进行指令微调,并在AgentBoard上展示了训练后的模型性能。
实验结果表明,AGENTGEN在领域内任务上比原始的LLama3-8B模型提高了5倍以上(11.67 vs 1.67),总体表现超过了GPT-3.5。在某些特定任务上,它甚至超越了GPT-4的表现。在领域外任务上,AGENTGEN也展现了类似的实验结果。具体而言,它显著提高了成功率,在Alfworld和BabyAI上分别实现了29.1和4.47的提升。在Alfworld上,AGENTGEN甚至超过了GPT-3.5的表现(29.1 vs 17.2)。
AGENTGEN的意义与展望
AGENTGEN框架的提出具有重要意义:
AGENTGEN为提升AI代理的规划能力开辟了一条新路径。未来,研究人员可能会进一步扩展这一框架,使其适用于更多类型的AI代理场景,如记忆、工具使用等。这将为构建更强大、更通用的AI代理奠定基础,推动人工智能向着更高层次发展。
(参考文献: Hu, M. , Zhao, P., Xu, C., Sun, Q., Lou, J., Lin, Q., … & Zhang, D. (2024). AGENTGEN: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation. arXiv preprint arXiv:2408.00764.)✅