AI代理生成新突破:微软提出AGENTGEN框架自动构建海量训练环境

在人工智能领域,基于大型语言模型(LLM)的AI代理正引发新一轮技术革命。这些AI代理能够像人类一样感知环境、做出决策并执行行动,在机器人规划、旅行规划等领域展现出巨大潜力。然而,如何提升AI代理的规划能力一直是一个挑战。最近,微软研究院联合香港大学的研究人员提出了一种名为AGENTGEN的创新框架,有望在这一问题上取得重大突破。

传统方法存在局限性

目前提升AI代理规划能力的主流方法是通过指令微调(instruction tuning)来训练大型语言模型。具体而言,研究人员会构建一些规划任务和环境,让AI代理在其中执行并收集高质量的轨迹数据(动作-观察序列),然后用这些数据来微调语言模型。

然而,这种方法存在一个关键瓶颈:构建多样化的环境和任务需要大量人工劳动。设计一个环境不仅要定义丰富而实用的场景,还需要编程技能来实现。制定任务则需要创建一套难度递进的任务集。由于这些限制,现有研究通常只能使用少量环境来生成训练数据。

AGENTGEN:自动构建海量环境和任务

为了突破这一瓶颈,微软研究院联合香港大学的研究人员提出了AGENTGEN框架。该框架利用大型语言模型自动构建多样化的环境和规划任务,将可用的环境数量从几个扩展到数百个。AGENTGEN主要包括两个阶段:

1. 环境生成

为了生成足够多样化的环境,研究人员使用了一个灵感语料库作为上下文。具体来说,他们首先从灵感语料库中随机选择一段文本,然后提示大型语言模型生成相关的环境规范,包括动作、限制等细节。例如,从语料库中选择”如何用花生酱粉提升你的饮食?”这段文本后,语言模型生成了一个相关的环境规范:”你是一名营养师,负责创作一本新的健康食谱,将花生酱粉作为关键成分”。

接下来,研究人员让语言模型根据这个规范生成相应的代码,可以是Python、PDDL(Planning Domain Definition Language)或其他特定领域语言。他们还构建了一个环境库,作为上下文示例,并通过迭代方式不断扩充高质量的新生成环境。

2. 任务生成

在生成环境的基础上,AGENTGEN还会创建多个规划任务。为了实现任务难度的多样性,研究人员提出了一种双向演化方法BI-EVOL。具体而言,语言模型首先生成一些随机规划任务,然后通过施加约束朝简化和增加难度两个方向演化这些任务。这种方法创建的任务集具有平滑的难度曲线,有助于语言模型更顺畅地获取规划技能。

实验验证AGENTGEN有效性

为了验证AGENTGEN的有效性,研究人员基于PDDL语言合成了环境和规划任务,构建了一个包含592个环境、每个环境20个任务的数据集。他们使用独立于领域的规划器获得了7,246条高质量轨迹。随后,研究人员使用这些轨迹数据对一系列语言模型进行指令微调,并在AgentBoard上展示了训练后的模型性能。

实验结果表明,AGENTGEN在领域内任务上比原始的LLama3-8B模型提高了5倍以上(11.67 vs 1.67),总体表现超过了GPT-3.5。在某些特定任务上,它甚至超越了GPT-4的表现。在领域外任务上,AGENTGEN也展现了类似的实验结果。具体而言,它显著提高了成功率,在Alfworld和BabyAI上分别实现了29.1和4.47的提升。在Alfworld上,AGENTGEN甚至超过了GPT-3.5的表现(29.1 vs 17.2)。

AGENTGEN的意义与展望

AGENTGEN框架的提出具有重要意义:

  1. 它是第一个针对LLM基础代理训练自动生成多样化规划任务和环境的框架。
  2. 通过使用灵感语料库作为生成环境的上下文,AGENTGEN生成了592个涵盖广泛场景的多样化环境。
  3. 提出的双向演化方法BI-EVOL能够构建具有更平滑难度曲线的任务集,从而更有效地提升语言模型的学习效果。
  4. 基于AGENTGEN构建的指令微调数据集在领域内和领域外规划任务上都取得了显著改进,验证了该方法的有效性和泛化能力。

AGENTGEN为提升AI代理的规划能力开辟了一条新路径。未来,研究人员可能会进一步扩展这一框架,使其适用于更多类型的AI代理场景,如记忆、工具使用等。这将为构建更强大、更通用的AI代理奠定基础,推动人工智能向着更高层次发展。

(参考文献: Hu, M. , Zhao, P., Xu, C., Sun, Q., Lou, J., Lin, Q., … & Zhang, D. (2024). AGENTGEN: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation. arXiv preprint arXiv:2408.00764.)

0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最多投票
最新 最旧
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x