Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning

盘古-智能体：可微调的通用智能体，赋能结构化推理

人工智能（AI）智能体的构建方法之一是强化学习（RL），但直接将感知映射到动作的独立RL策略面临着重大挑战，主要包括：

缺乏泛化性: 难以将RL策略应用于多个任务。
数据需求量大: 训练RL策略需要大量的数据。

造成这些问题的根本原因在于，RL策略在制定策略时无法有效地将先验信息整合到感知-动作循环中。大型语言模型（LLMs）为将跨领域知识融入AI智能体提供了一种基础方法，但它们缺乏针对特定决策问题进行学习和适应的能力。

本文提出了一种将结构化推理集成到AI智能体策略中的通用框架模型，盘古-智能体。该框架的灵感来源于人脑的模块化结构，利用内在函数和外在函数的构建，将推理结构的先验理解融入其中，并提供在每个模块或函数内部学习模型的适应能力，与认知过程的模块化结构相一致。

盘古-智能体的核心设计：结构化推理与可微调

盘古-智能体框架的核心设计在于将结构化推理融入RL管道，并通过监督微调和RL微调来实现智能体的可适应性。

结构化推理：将先验知识融入决策过程

盘古-智能体框架将智能体的内部思考过程形式化为结构化推理，通过引入内在函数 µ(·) 来操作和转换智能体的内部记忆，从而将传统的RL目标重塑为支持多个「思考」步骤的目标。

传统的RL目标旨在找到一个策略 π，该策略根据观察历史 ⃗o 来最大化回报 R. ��即 maxπ(·) R(π(·|⃗o))。而盘古-智能体框架则通过嵌套的内在函数集 ⃗µ(·) 来重新定义这一目标：✅

Standard RL
max
π(·)

R(π(·|⃗o)) →

Pangu Opt.
max
π(·),⃗µ(·)

R(π(·|⃗o, ⃗µ(⃗o))).

内在函数可以是各种操作，例如：思考、计划、反思经验、与其他智能体交流、使用工具等等。例如，当要求智能体进行思考时，它会观察问题并产生关于当前情况的高级想法。

可微调：利用LLMs和环境反馈进行学习

盘古-智能体框架利用LLMs作为基础模型，并通过监督微调和RL微调来实现智能体的可适应性。

监督微调: 通过收集环境中成功的轨迹，并使用因果语言建模损失函数来优化LLMs的参数，从而提高智能体在特定任务上的性能。
RL微调: 通过让智能体与环境交互，并使用PPO算法来优化策略，从而最大化预期回报。

盘古-智能体的优势：超越现有框架的性能

盘古-智能体框架具有以下优势：

泛化性: 能够适应各种任务，例如：ALFWorld、GSM8K. ��HotpotQA、WebShop等等。✅
模块化: 能够支持各种内在函数和外在函数的组合，例如：思考、计划、反思、使用工具等等。
可微调: 能够通过监督微调和RL微调来提高智能体的性能。

实验结果：验证盘古-智能体的有效性

本文通过一系列实验验证了盘古-智能体框架的有效性，包括：

结构化推理评估: 对各种第一阶嵌套方法和复合方法进行了评估，结果表明复合方法在实现智能体的预期回报方面往往优于第一阶嵌套方法。
微调评估: 通过监督学习和RL微调，成功地提高了智能体在ALFWorld和BabyAI任务中的成功率。

实验结果表明，在ALFWorld和BabyAI任务中，通过监督微调和RL微调，智能体的成功率分别提高了三倍和两倍。此外，跨领域实验表明，通过RL管道训练的单个LLM能够同时在ALFWorld和BabyAI领域取得高性能。

未来展望：更强大的通用智能体

盘古-智能体框架的未来发展方向包括：

全微分: 将逐步转向对框架进行结构化和端到端微调，实现内在函数和外在函数之间的梯度传递，使系统更具适应性。
现实世界应用: 将在更多样化和复杂的评估任务中进行验证，以实现盘古-智能体在现实世界应用中的有效性，并解决模拟到现实的差距。
记忆检索: 将引入更复杂的记忆检索方法，例如：从向量数据库中嵌入相似性，使智能体能够将相关记忆纳入其上下文窗口，从而解决任务。
规划: 将整合和测试树搜索算法，并开发和实施高效的长期规划策略，提高盘古-智能体的规划能力。
工具使用: 将支持更多外部工具，例如：网络搜索引擎、计算器（例如Wolfram Alpha）、地图等等，扩展盘古-智能体的应用范围。

盘古-智能体框架的出现，标志着AI智能体发展的新阶段，它将结构化推理和可微调能力相结合，为构建更强大的通用智能体提供了新的思路和方法。

参考文献

[1] J. S. Albus, 「Outline for a theory of intelligence,」 IEEE transactions on systems, man, and cybernetics, vol. 21, no. 3, pp. 473–509, 1991.✅
[2] D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel et al., 「A general reinforcement learning algorithm that masters chess, shogi, and go through self-play,」 Science, vol. 362, no. 6419, pp. 1140–1144, 2018.✅
[3] D. J. Mankowitz, A. Michi, A. Zhernov, M. Gelmi, M. Selvi, C. Paduraru, E. Leurent, S. Iqbal, J.-B. Lespiau, A. Ahern et al., 「Faster sorting algorithms discovered using deep reinforcement learning,」 Nature, vol. 618, no. 7964, pp. 257–263, 2023.✅
[4] A. Fawzi, M. Balog, A. Huang, T. Hubert, B. Romera-Paredes, M. Barekatain, A. Novikov, F. J. R Ruiz, J. Schrittwieser, G. Swirszcz et al., 「Discovering faster matrix multiplication algorithms with reinforcement learning,」 Nature, vol. 610, no. 7930, pp. 47–53, 2022.✅
[5] E. Kaufmann, L. Bauersfeld, A. Loquercio, M. Müller, V. Koltun, and D. Scaramuzza, 「Champion-level drone racing using deep reinforcement learning,」 Nature, vol. 620, no. 7976, pp. 982–987, 2023.✅
[6] J. Degrave, F. Felici, J. Buchli, M. Neunert, B. Tracey, F. Carpanese, T. Ewalds, R. Hafner, A. Abdolmaleki, D. de Las Casas et al., 「Magnetic control of tokamak plasmas through deep reinforcement learning,」 Nature, vol. 602, no. 7897, pp. 414–419, 2022.✅
[7] K. Rakelly, A. Zhou, D. Quillen, C. Finn, and S. Levine, 「Efficient off-policy meta-reinforcement learning via probabilistic context variables,」 in International Conference on Machine Learning, 2019. [Online]. Available: https://api.semanticscholar.org/CorpusID:84187276✅
[8] A. Gupta, R. Mendonca, Y. Liu, P. Abbeel, and S. Levine, 「Meta-reinforcement learning of structured exploration strategies,」 in Neural Information Processing Systems, 2018. [Online]. Available: https://api.semanticscholar.org/CorpusID:3418899✅
[9] J. X. Wang, Z. Kurth-Nelson, D. Kumaran, D. Tirumala, H. Soyer, J. Z. Leibo, D. Hassabis, and M. M. Botvinick, 「Prefrontal cortex as a meta-reinforcement learning system,」 Nature Neuroscience, vol. 21, pp. 860 – 868, 2018. [Online]. Available: https://api.semanticscholar.org/CorpusID:44137923✅
[10] I. Clavera, A. Nagabandi, S. Liu, R. S. Fearing, P. Abbeel, S. Levine, and C. Finn, 「Learning to adapt in dynamic, real-world environments through meta-reinforcement learning,」 in International Conference on Learning Representations, 2019. [Online]. Available: https://openreview.net/forum?id=HyztsoC5Y7✅
[11] A. G. Barto, 「Intrinsic motivation and reinforcement learning,」 in Intrinsically Motivated Learning in Natural and Artificial Systems, 2013. [Online]. Available: https://api.semanticscholar.org/CorpusID:2326055✅
[12] H. Tang, R. Houthooft, D. Foote, A. Stooke, O. Xi Chen, Y. Duan, J. Schulman, F. DeTurck, and P. Abbeel, 「#exploration: A study of count-based exploration for deep reinforcement learning,」 in Advances in Neural Information Processing Systems, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Eds., vol. 30. Curran Associates, Inc., 2017. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2017/file/3a20f62a0af1aa152670bab3c602feed-Paper.pdf✅
[13] Y. Burda, H. Edwards, A. Storkey, and O. Klimov, 「Exploration by random network distillation,」 in 7th International Conference on Learning Representations (ICLR 2019), May 2019, pp. 1–17, seventh International Conference on Learning Representations, ICLR 2019 ; Conference date: 06-05-2019 Through 09-05-2019. [Online]. Available: https://iclr.cc/✅
[14] M. Jaderberg, V. Mnih, W. M. Czarnecki, T. Schaul, J. Z. Leibo, D. Silver, and K. Kavukcuoglu, 「Reinforcement learning with unsupervised auxiliary tasks,」 in International Conference on Learning Representations, 2017. [Online]. Available: https://openreview.net/forum?id=SJ6yPD5xg✅
[15] E. Shelhamer, P. Mahmoudieh, M. Argus, and T. Darrell, 「Loss is its own reward: Self-supervision for reinforcement learning,」 ArXiv, vol. abs/1612.07307, 2016. [Online]. Available: https://api.semanticscholar.org/CorpusID:16561904✅
[16] S. Li, R. Wang, M. Tang, and C. Zhang, 「Hierarchical reinforcement learning with advantage-based auxiliary rewards,」 Advances in Neural Information Processing Systems, vol. 32, 2019.✅
[17] A. Ng, D. Harada, and S. J. Russell, 「Policy invariance under reward transformations: Theory and application to reward shaping,」 in International Conference on Machine Learning, 1999. [Online]. Available: https://api.semanticscholar.org/CorpusID:5730166✅
[18] S. Devlin and D. Kudenko, 「Dynamic potential-based reward shaping,」 in Adaptive Agents and Multi-Agent Systems, 2012. [Online]. Available: https://api.semanticscholar.org/CorpusID:17251664✅
[19] P. Goyal, S. Niekum, and R. J. Mooney, 「Using natural language for reward shaping in reinforcement learning,」 in International Joint Conference on Artificial Intelligence, 2019. [Online]. Available: https://api.semanticscholar.org/CorpusID:70350059✅
[20] E. Brochu, V. M. Cora, and N. de Freitas, 「A tutorial on bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning,」 ArXiv, vol. abs/1012.2599, 2010. [Online]. Available: https://api.semanticscholar.org/CorpusID:1640103✅
[21] P. Poupart, N. Vlassis, J. Hoey, and K. Regan, 「An analytic solution to discrete bayesian reinforcement learning,」 in Proceedings of the 23rd international conference on Machine learning, 2006, pp. 697–704.✅
[22] M. Ghavamzadeh, S. Mannor, J. Pineau, A. Tamar et al., 「Bayesian reinforcement learning: A survey,」 Foundations and Trends® in Machine Learning, vol. 8, no. 5-6, pp. 359–483, 2015.✅
[23] T. D. Kulkarni, K. Narasimhan, A. Saeedi, and J. Tenenbaum, 「Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation,」 in Advances in Neural Information Processing Systems, D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, Eds., vol. 29. Curran Associates, Inc., 2016. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2016/file/f442d33fa06832082290ad8544a8da27-Paper.pdf✅
[24] A. G. Barto and S. Mahadevan, 「Recent advances in hierarchical reinforcement learning,」 Discrete event dynamic systems, vol. 13, no. 1-2, pp. 41–77, 2003.✅
[25] O. Nachum, S. S. Gu, H. Lee, and S. Levine, 「Data-efficient hierarchical reinforcement learning,」 Advances in neural information processing systems, vol. 31, 2018.✅
[26] G. Andersen, P. Vrancx, and H. Bou-Ammar, 「Learning high-level representations from demonstrations,」 CoRR, vol. abs/1802.06604, 2018. [Online]. Available: http://arxiv.org/abs/1802.06604✅
[27] Q. Wu, G. Bansal, J. Zhang, Y. Wu, B. Li, E. Zhu, L. Jiang, X. Zhang, S. Zhang, J. Liu, A. H. Awadallah, R. W. White, D. Burger, and C. Wang, 「AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation,」 arXiv e-prints, p. arXiv:2308.08155, Aug. 2023.✅
[28] S. Gravitas, 「Auto-gpt: An autonomous gpt-4 experiment,」 2023. [Online]. Available: https://github.com/Significant-Gravitas/AutoGPT✅
[29] W. Chen, Y. Su, J. Zuo, C. Yang, C. Yuan, C.-M. Chan, H. Yu, Y. Lu, Y.-H. Hung, C. Qian, Y. Qin, X. Cong, R. Xie, Z. Liu, M. Sun, and J. Zhou, 「Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors,」 2023.✅
[30] T. Schick, J. Dwivedi-Yu, R. Dessì, R. Raileanu, M. Lomeli, L. Zettlemoyer, N. Cancedda, and T. Scialom, 「Toolformer: Language models can teach themselves to use tools,」 Advances in Neural Information Processing Systems, vol. 36, 2023.✅
[31] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, 「Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface,」 Advances in Neural Information Processing Systems, vol. 36, 2023.✅
[32] HuggingFace, 「Transformers agent,」 2023. [Online]. Available: https://huggingface.co/docs/transformers/transformers_agents
[33] C. Harrison, 「Langchain,」 2022.✅
[34] T. Xie, F. Zhou, Z. Cheng, P. Shi, L. Weng, Y. Liu, T. J. Hua, J. Zhao, Q. Liu, C. Liu, L.✅

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为Pangu-Agent的框架，旨在解决如何创建能够在多个任务中表现良好的通用智能体（AI代理）的问题。具体来说，它试图解决以下两个主要问题： 1. 直接将感知映射到动作的独立强化学习（RL）策略在构建时会遇到严重问题，尤其是缺乏跨多个任务的普遍性和需要大量训练数据。 2. 大型语言模型（LLMs）虽然可以作为将跨领域知识整合到AI代理中的基本方式，但缺乏针对特定决策问题的学习和适应能力。 Pangu-Agent框架通过整合和学习结构化推理到AI代理的政策中来解决这些问题。该框架受到人类大脑模块性的启发，利用构建内在和外在功能来添加对推理结构的先前理解。它还提供了适应性能力，可以在每个模块或功能中学习模型，这与认知过程的模块化结构一致。总之，这篇论文提出了一个通用框架，通过整合结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战，使其能够在多个任务中表现良好。

Q: 有哪些相关研究？

A: 这篇论文讨论了几种与Pangu-Agent框架和创建通用智能体相关的现有研究和方法。其中一些最相关的研究包括： * 使用元学习、内在动机、辅助任务、逆强化学习和贝叶斯先验的改进学习，以提高强化学习代理的学习能力和适应性。 * 将大型语言模型（LLMs）整合到代理框架中，例如AutoGen、AutoGPT和AgentVerse，以利用跨领域知识并构建通用智能体。 * 研究LLM代理，不仅使用LLMs作为基础先验，还使用工具和多智能体通信来构建通用智能体。 * 开发模块化和灵活的智能体框架，例如Transformers Agents、LangChain、OpenAgents、XAgent和MetaGPT。 * 提出组合方法，例如SwiftSage、ReAct和Least-to-Most，以增强LLM的推理能力。 * 在代理中实现搜索增强规划，使用BFS、DFS和MCTS等树搜索算法。 * 开发多智能体框架，允许智能体之间的通信和协作，例如CAMEL、AgentVerse和ProAgent。 * 评估和分析LLM代理在各种任务中的表现，例如GSM8K. ��HotpotQA、ALFWorld、WebShop和BabyAI。总的来说，这篇论文借鉴了广泛的现有研究，涉及强化学习、大型语言模型、多智能体系统和通用智能体开发，以创建一个结合结构化推理、先前知识和适应性学习的通用智能体框架。✅

Q: 论文如何解决这个问题？

A: 这篇论文通过提出一个名为Pangu-Agent的通用框架来解决创建通用智能体的问题，该框架整合和学习结构化推理到AI代理的政策中。该框架通过以下方式解决提到的挑战： 1. 结构化推理：论文通过假设一组内在函数（µ）来形式化代理的内部思考过程，这些函数作用于和转换代理的内部记忆。这些内在函数的引入可以重新制定典型的RL目标，支持多个「思考」步骤。这使得代理能够以更模块化和灵活的方式进行推理和决策。 2. 内在和外在功能：该框架定义了两组功能 – 内在函数，操作代理的内部记忆状态，和外在函数，与外部环境进行交互。内在函数对于塑造代理的内部状态和决策过程至关重要，而外在函数则直接生成要在环境中执行的动作。 3. 适应性：论文展示了如何通过监督微调和强化学习（RL）微调来微调Pangu-Agent。通过结构化推理，可以有效地从预训练的LLM先验开始收集有价值的奖励轨迹，以启动训练和微调过程。该框架支持全秩和低秩适应算法，以使其更广泛地可用。 4. 模块化设计：Pangu-Agent灵活且模块化，使用户能够轻松地扩展代理的功能并组合或重用许多已经实现的方法。该框架与各种任务和大型语言模型兼容，使其能够适应不同的环境和领域。总之，Pangu-Agent框架通过整合结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战。它受到人类大脑模块性的启发，并提供了一种通用且灵活的代理设计，可以在多个任务中实现更好的性能和适应性。

Q: 论文做了哪些实验？

A: 这篇论文进行了广泛的实验，以评估Pangu-Agent框架及其结构化推理能力。实验涵盖了各种任务、大型语言模型（LLMs）和微调方法。以下是论文中进行的主要实验： 1. 结构化推理能力评估：论文评估了Pangu-Agent中的几种结构化推理方法，包括一阶嵌套（例如直接回答、链式思考提示）和组合方法（例如ReAct、Self-Consistency、SwiftSage、Least-to-Most）。这些评估在七个不同的LLMs（例如GPT-3.5、Llama 2、OpenChat）和六个领域（例如ALFWorld、GSM8K. ��HotpotQA）上进行。 2. 监督微调（SFT）：论文展示了如何使用Pangu-Agent框架对LLMs进行SFT。通过拒绝重采样管道，显著提高了LLM在ALFWorld域中的表现，将保留任务中的成功率从27%提高到82%。 3. 强化学习微调（RLFT）：论文还评估了RLFT在Pangu-Agent中的效果。通过RL进一步提高了ALFWorld任务中的成功率，从82%提高到88%，在BabyAI任务中从28%提高到91%。这些结果突出了结构化推理在显著推进基于LLM的代理训练方面的潜力。 4. 跨域评估：论文进行了跨域实验，展示了通过RL管道训练的单个LLM能够在ALFWorld（82%）和BabyAI（18个任务的平均58.7%）域中同时实现高性能的能力。这证明了Pangu-Agent框架在将LLMs适应新任务方面的有效性。 5. 规划增强：论文评估了在GSM8K和Game24上使用树搜索算法（BFS、DFS和MCTS）增强规划能力的效果。该框架利用LLM作为策略、模型和价值函数，并与LLM-based模拟环境进行交互，构建rollout树，以更好地使用树搜索算法进行动作/生成。总的来说，论文中进行的实验全面评估了Pangu-Agent框架及其结构化推理能力，展示了其在各种任务和设置中的有效性。这些结果可以帮助研究人员了解如何初始化他们的代理以及如何收集微调步骤的数据。✅

Q: 有什么可以进一步探索的点？

A: 这篇论文提出了一个有前途的通用智能体框架，但有几个潜在的研究方向可以进一步探索： 1. 全不同性：论文专注于独立优化内在和外在功能。朝着Pangu-Agent框架的全不同性发展，允许在各种内在和外在功能之间传递梯度，可以使系统更加适应。 2. 真实世界的应用：论文在有限数量的单智能体和多智能体任务上评估了Pangu-Agent的性能。将更多样化和复杂的评估任务纳入未来的工作，使Pangu-Agent在真实世界的应用中更加有效，并解决模拟到现实的差距，将是有益的。 3. 记忆检索：当前版本的Pangu-Agent支持长期记忆，存储每个智能体可用的任何信息，例如其观察、思想和行动。在未来，更复杂的记忆检索方法，如允许智能体在其上下文窗口中融入相关记忆的向量数据库中的嵌入相似性，可以被纳入其中，以解决任务。 4. 规划：目前，论文只关注推理任务的规划。在未来，将树搜索算法集成到交互式环境中的基于智能体任务中，并开发和实施高效长期规划的策略，将增强Pangu-Agent的规划能力，使其能够应对现实世界的挑战并适应动态环境。 5. 工具使用：Pangu-Agent未来路线图的一个重要部分是促进与外部工具的集成。Pangu-Agent在其当前配置中包括一个代码解释器，用于执行简单的Python脚本。然而，未来的Pangu-Agent版本将支持与各种外部工具（如Web搜索引擎、计算器（例如Wolfram Alpha）和地图）的兼容性。这种扩展将使Pangu-Agent能够在各种应用中更广泛地部署，并使其能够推广到超出其初始学习分布的任务。 6. 多智能体协作：虽然论文讨论了多智能体设置，但探索更先进的多智能体协作、沟通模式和任务分配策略将是有趣的。 7. 可扩展性和效率：随着大型语言模型的规模不断扩大，优化Pangu-Agent框架的可扩展性和效率，以处理更大的模型和更复杂的任务，将是一个重要的研究方向。 8. 安全性和鲁棒性：确保Pangu-Agent框架产生的智能体是安全可靠的，不能用于有害或不道德的目的，将是需要解决的关键挑战。总之，Pangu-Agent框架为通用智能体的研究提供了一个有前途的基础，但还有许多潜在的研究方向可以进一步探索，以完善框架并将其适应更广泛的真实世界应用。

Q: 总结一下论文的主要内容

A: 这篇论文提出了Pangu-Agent框架，这是一个通用的智能体框架，利用结构化推理来提高强化学习（RL）代理的性能。Pangu-Agent框架的关键点可以总结如下： 1. **目标**：创建能够在多个任务中表现良好的通用智能体，利用大型语言模型（LLMs）作为先验知识，同时解决直接感知到动作的RL策略的局限性。 2. **结构化推理**：引入内在函数来形式化代理的内部思考过程，使代理能够进行多步推理并适应新任务。 3. **内在和外在功能**：框架定义了两组功能 – 内在函数，操作代理的内部记忆状态，和外在函数，与外部环境进行交互。 4. **适应性**：Pangu-Agent可以通过监督微调和强化学习（RL）微调来适应新任务，允许在内在和外在功能上进行微调。 5. **评估**：在各种任务和LLMs上评估了Pangu-Agent，表明结构化推理方法比非结构化方法表现更好。微调进一步提高了代理的性能。 6. **跨域学习**：展示了单个LLM可以通过RL微调在多个域中实现高性能，证明了框架的跨域学习潜力。 7. **未来工作**：讨论了Pangu-Agent的潜在改进，包括全不同性、真实世界应用、记忆检索、规划、工具使用和多智能体协作。总的来说，Pangu-Agent框架通过结构化推理、先前知识和适应性学习来解决创建通用智能体的挑战，使其能够在多个任务中实现更好的性能和适应性。