ProAgent: 构建具有主动合作能力的大型语言模型 2023-11-22 作者 C3P00 在人机合作中,构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前,发展合作代理的方法主要依赖于学习方法,其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架,它利用大型语言模型(LLMs)来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色,能够动态适应其行为以提高与队友的协作效果。此外,ProAgent 框架具有高度的模块化和可解释性,便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外,在与人类代理模型合作时,其性能平均改进超过了 10%,比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示,请访问: https://pku-proagent.github.io 框架的特点包括: 1. 利用大型语言模型(LLMs):ProAgent 使用 LLMs 来预测队友的未来决策,并据此制定增强的计划。 2. 积极的代理:ProAgent 是一个积极的代理,可以主动适应队友的行为,以提高合作效果。 3. 高度的模块化和可解释性:ProAgent 框架具有高度的模块化和可解释性,可以方便地集成到各种协调场景中。 4. 卓越的性能:实验结果显示,ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时,其性能平均提高了 10% 以上,超过了当前的最佳方法 COLE。 5. 广泛的适用性:ProAgent 的改进在不同的场景中都得到了一致的观察,这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。 6. 可演示性:作者提供了一个在线演示,用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。 1. SayCan:这个方法主要是通过语言模型(LLM)来理解和解析当前任务的知识库,并将原始状态信息转换成语言为基础的状态描述,以便于 LLM 能够有效地理解和处理。在这个过程中,知识库和状态对齐是非常关键的。 2. ReAct:这个方法主要是在不对称优势布局中,通过展示有意不对称的布局,如洋葱、锅和供应点的位置,来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势,从而提高游戏的挑战性和趣味性。 3. DEPS:这个方法主要是通过记忆模块来存储整个流程中涉及到提示、推理过程和验证过程中的所有相关信息。这种积累的知识能够帮助玩家做出更明智的决策,并随着时间的推移调整行为。 4. RAP:这个方法主要是在强制协调布局中,玩家需要通过协作来成功完成汤的配送。但是,这些 ZSC 方法显示出了特定的惯例,如在两个 FCP 代理之间的交互中,他们总是在第一个工作台交换洋葱,在第三个工作台交换菜肴。这种惯例虽然对于自身协作以达到高分非常有效,但是对于与新代理的有效协调却带来了挑战。 5. Reflexion:这个方法主要是通过信念校正和技能验证来进一步验证和校正队友代理的技能信念,同时,所选技能也会被验证器验证,并在找到合法技能之前反复规划。
在人机合作中,构建具有自适应行为的 AI 成为 AGI 研究的关键焦点。目前,发展合作代理的方法主要依赖于学习方法,其中策略泛化严重依赖于与特定队友的过去互动。这些方法限制了代理在面对新队友时重新调整策略的能力。我们提出了一种名为 ProAgent 的新框架,它利用大型语言模型(LLMs)来创建一种具有预测队友即将作出的决策并制定增强计划能力的积极代理。ProAgent 在合作推理方面表现出色,能够动态适应其行为以提高与队友的协作效果。此外,ProAgent 框架具有高度的模块化和可解释性,便于无缝集成以解决各种协调场景。在 Overcook-AI 框架内进行的实验评估揭示了 ProAgent 在合作中显著超越了五种基于自我游戏和基于种群训练的方法。此外,在与人类代理模型合作时,其性能平均改进超过了 10%,比现有最先进的 COLE 方法更好。这种进步在涉及与具有不同特性的 AI 代理和人类对手互动的多样化场景中是一致的。这些发现激发了未来人机协作的研究。有关动手演示,请访问:
https://pku-proagent.github.io
框架的特点包括:
1. 利用大型语言模型(LLMs):ProAgent 使用 LLMs 来预测队友的未来决策,并据此制定增强的计划。
2. 积极的代理:ProAgent 是一个积极的代理,可以主动适应队友的行为,以提高合作效果。
3. 高度的模块化和可解释性:ProAgent 框架具有高度的模块化和可解释性,可以方便地集成到各种协调场景中。
4. 卓越的性能:实验结果显示,ProAgent 在《Overcook-AI》框架中的表现优于基于自我游戏和基于人口训练的五种方法。在与人类代理模型合作时,其性能平均提高了 10% 以上,超过了当前的最佳方法 COLE。
5. 广泛的适用性:ProAgent 的改进在不同的场景中都得到了一致的观察,这些场景涉及与具有不同特征的 AI 代理和人类对手的互动。
6. 可演示性:作者提供了一个在线演示,用户可以在 https://pku-proagent.github.io 上亲自体验 ProAgent 的性能。
1. SayCan:这个方法主要是通过语言模型(LLM)来理解和解析当前任务的知识库,并将原始状态信息转换成语言为基础的状态描述,以便于 LLM 能够有效地理解和处理。在这个过程中,知识库和状态对齐是非常关键的。
2. ReAct:这个方法主要是在不对称优势布局中,通过展示有意不对称的布局,如洋葱、锅和供应点的位置,来让两个玩家在各自的厨房中进行游戏。这种布局能够有效地展示出对称和非对称的优势,从而提高游戏的挑战性和趣味性。
3. DEPS:这个方法主要是通过记忆模块来存储整个流程中涉及到提示、推理过程和验证过程中的所有相关信息。这种积累的知识能够帮助玩家做出更明智的决策,并随着时间的推移调整行为。
4. RAP:这个方法主要是在强制协调布局中,玩家需要通过协作来成功完成汤的配送。但是,这些 ZSC 方法显示出了特定的惯例,如在两个 FCP 代理之间的交互中,他们总是在第一个工作台交换洋葱,在第三个工作台交换菜肴。这种惯例虽然对于自身协作以达到高分非常有效,但是对于与新代理的有效协调却带来了挑战。
5. Reflexion:这个方法主要是通过信念校正和技能验证来进一步验证和校正队友代理的技能信念,同时,所选技能也会被验证器验证,并在找到合法技能之前反复规划。