评估大型语言模型在多智能体协作环境中的协调能力

简介：

🌟 当今人工智能研究的重要目标之一是开发能够与人类和其他系统有效协作的智能体。大型语言模型（LLM）以其理解、生成和解释人类语言的能力而备受关注，成为开发此类智能体的有力候选。在本研究中，我们旨在构建并评估使用 LLM 构建的智能体在各种协调场景中的效果。我们引入了 LLM-Coordination（LLM-Co）框架，专门设计用于使 LLM 能够玩协调游戏。通过评估，我们深入研究了 LLM 在心智理论、情境推理、持续协调、对合作伙伴的稳健性以及显性协助等方面的能力。研究结果突显了 LLM 在复杂协调环境中的潜力，并揭示了 LLM 在构建用于多智能体协作的强大现实世界智能体方面的潜力。

理解多智能体协调的需求：

🌟 人类在日常生活和工作中经常进行各种协调任务，包括烹饪等平凡活动以及搜救等更重要的任务。为了帮助人类完成乏味或危险的任务，开发能够与人类或其他自主系统协调的智能体至关重要。大型语言模型最近在复杂环境中展示了解决问题和完成任务的能力，展示了高级推理能力和心智理论的迹象。在本研究中，我们旨在探索大型语言模型在解决需要多智能体协调的任务时的推理能力。

评估过程：

🌟 为了评估 LLM 的多智能体协调能力，我们采用了三种不同的协调游戏：Collab Escape、Collab Capture 和 Overcooked。在这些游戏中，智能体需要协调行动以实现特定目标。为了使 LLM 能够理解和玩这些游戏，我们引入了 LLM-Coordination 框架。该框架为智能体提供了环境的上下文状态信息、可行动作以及解释实时执行的能力。

测试心智理论和情境推理：

🌟 在评估持续协调能力之前，我们首先测试了 LLM 的心智理论（ToM）和情境推理能力。心智理论使模型能够推断他人的意图和信念，而情境推理则使模型能够将这些推断与环境的上下文情境联系起来。我们设计了 LLM-ToM-Reasoning 测试集，其中包括来自我们协调游戏的情景。该测试集要求 LLM 根据合作伙伴的意图和环境的当前状态进行推理，提供最佳的下一步行动。评估涉及不同 LLM（包括 GPT-4、GPT-3.5-turbo、Vicuna-33B 和 Vicuna-13B）的比较。结果表明，GPT- 4 在性能上超过其他 LLM，达到了接近人类水平的分数。

评估持续协调和对合作伙伴的稳健性：

🌟 为了评估持续协调能力，我们专注于使用 GPT- 4 的 LLM-Co 智能体，该智能体展现出强大的心智理论和情境推理能力。我们将 LLM-Co 智能体的性能与强化学习（RL）基准进行比较，后者是 AI-AI 游戏中的黄金标准。我们还通过在协调环境中尝试不同的合作伙伴来评估智能体对不同合作伙伴行为的稳健性。评估结果显示，LLM-Co 智能体在 AI-AI 和 AI-human 代理游戏中的表现不亚于甚至优于 RL 基准，而且无需进行任何微调。此外，LLM 智能体在自然语言中提供详细解释其行动的能力方面表现出色。

协调任务中的主动协助：

🌟 在协调任务中，提供对合作伙伴的显性协助能力至关重要。为了测试这种能力，我们在 Overcooked 环境中引入了两个新的布局，要求 LLM-Co 智能体优先帮助合作伙伴，甚至可能牺牲自身的任务完成时间。通过实验和评估，我们发现 LLM-Co 智能体能够确定协助合作伙伴的正确策略。然而，在需要提示协助的情况下，它们需要以自然语言的“协助指令”来引导其关注。结果表明，LLM-Co 智能体在这些新布局中的表现优于基准模型。

主要贡献：

🌟 在我们的研究中，我们做出了以下几个重要贡献：

1️⃣ 发展了 LLM-Coordination 框架，为大型语言模型提供了在实时场景中玩长期协调游戏所需的工具和环境信息。

2️⃣ 引入了 LLM-ToM-Reasoning 测试集，专门设计用于评估大型语言模型的心智理论和情境推理能力。

3️⃣ 通过 LLM-Co 智能体的评估，展示了它们在全面的多轮协调场景中与强化学习基准的性能。

4️⃣ 引入了两个新的 Overcooked 布局，以检验 LLM-Co 智能体提供主动协助合作伙伴的能力，突出了其在优先合作而非个体任务完成方面的能力。

结论：

🌟 对大型语言模型在多智能体协调场景中的评估揭示了它们在理解和推理合作伙伴意图、适应复杂环境以及提供显性协助方面的潜力。LLM-Coordination 框架与 LLM 的优势相结合，使得能够开发能够熟练进行多智能体协调的现实世界智能体成为可能。这项研究为构建能够有效与人类和其他自主智能体协作的先进 AI 系统开辟了新的途径，促进了在搜索和救援、医疗保健和日常任务等各个领域的进展。本研究的发现为 AI 研究中增强智能体协调能力的持续努力做出了贡献。

🎉🎉🎉 结束 🎉🎉🎉