大型语言模型驱动的智能体:从诞生到社会 2024-06-19 作者 C3P00 近年来,人工智能领域取得了令人瞩目的进展,其中大型语言模型(LLM)的出现被认为是通向通用人工智能(AGI)的关键一步。LLM 拥有强大的语言理解和生成能力,为构建能够感知环境、做出决策并执行行动的智能体提供了坚实的基础。本文将深入探讨 LLM 驱动的智能体,从其构建、应用到社会模拟等方面展开论述。 1. 智能体的诞生:LLM 驱动的智能体构建 LLM 驱动的智能体通常由三个主要部分组成:大脑、感知和行动。 1.1 大脑:以 LLM 为核心 LLM 是智能体的大脑,赋予其强大的语言能力,使其能够理解和生成自然语言。 1.1.1 自然语言交互 LLM 在自然语言交互方面展现出卓越的能力,包括: 高质量生成: LLM 可以生成流畅、连贯且富有创意的文本,例如,在 Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond 中,研究者利用 LLM 构建了 PCA-EVAL,一个用于评估基于 LLM 的端到端方法和工具使用方法的基准测试平台。 深度理解: LLM 能够理解文本的语义、情感和意图,例如,在 Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models. 中,研究者发现 LLM 在一定程度上具备心智理论能力,但这种能力并不稳健。 1.1.2 知识 LLM 的知识储备是其强大能力的基石,主要来源包括: 预训练模型: LLM 通过在海量文本数据上进行预训练,学习了丰富的语言知识,例如,Learning Distributed Representations of Sentences from Unlabelled Data 中提出的词嵌入模型,为 LLM 提供了基础的语言知识。 语言知识: LLM 掌握了语言的语法、语义和词汇知识,例如,Probing Pre-trained Language Models for Semantic Attributes and their Values 研究了 LLM 对语义属性和值的理解能力。 常识知识: LLM 具备一定程度的常识推理能力,例如,Language Models of Code are Few-Shot Commonsense Learners 发现代码语言模型可以进行少样本常识学习。 可操作知识: LLM 可以将知识转化为可执行的行动,例如,Large language models in medicine 讨论了 LLM 在医疗领域的应用,可以帮助医生诊断和治疗疾病。 1.1.3 内存 LLM 的内存能力决定了其记忆和检索信息的能力。 内存能力: LLM 的内存能力可以通过以下方法提升: 提高 Transformer 的长度限制: 例如,MemGPT: Towards LLMs as Operating Systems 提出了 MemGPT,一个将 LLM 作为操作系统使用的框架,可以处理更长的文本序列。 记忆摘要: 例如,Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading 通过交互式阅读来扩展 LLM 的上下文长度。 使用向量或数据结构压缩记忆: 例如,ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory 将数据库作为 LLM 的符号记忆,扩展了其记忆能力。 记忆检索: LLM 需要能够有效地从记忆中检索相关信息,例如,Memory Sandbox: Transparent and Interactive Memory Management for Conversational Agents 提出了一种透明且交互式的内存管理方法,用于对话智能体。 1.1.4 推理与规划 LLM 的推理和规划能力是其解决复杂问题、制定行动计划的关键。 推理: LLM 可以进行逻辑推理和归纳推理,例如,Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning 提出了一种基于反向课程强化学习的 LLM 推理训练方法。 规划: LLM 可以根据目标制定行动计划,包括: 计划制定: 例如,Tree of Thoughts: Deliberate Problem Solving with Large Language Models 提出了一种基于树结构的 LLM 规划方法。 计划反思: 例如,Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization 提出了一种基于策略级反思和优化的 LLM 智能体进化方法。 1.1.5 可迁移性和泛化性 LLM 的可迁移性和泛化性决定了其在不同任务和场景下的适应能力。 未见任务泛化: LLM 可以将已学知识迁移到新的任务,例如,AgentTuning: Enabling Generalized Agent Abilities for LLMs 提出了一种用于赋予 LLM 泛化能力的训练方法。 上下文学习: LLM 可以通过少量示例快速学习新任务,例如,Language Models are Few-Shot Learners 展示了 LLM 的少样本学习能力。 持续学习: LLM 可以不断学习新知识,避免遗忘旧知识,例如,Voyager: An Open-Ended Embodied Agent with Large Language Models 展示了 LLM 驱动的终身学习智能体在 Minecraft 中的应用。 1.2 感知:多模态输入 LLM 驱动的智能体可以通过多模态感知,获取更丰富的信息。 1.2.1 视觉 LLM 可以理解和生成图像信息,例如,Images Speak in Images: A Generalist Painter for In-Context Visual Learning 提出了一个用于上下文视觉学习的通用模型 Painter。 1.2.2 音频 LLM 可以理解和生成音频信息,例如,Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 训练了一个神经编解码语言模型 VALL-E. 具备上下文学习能力。✅ 1.3 行动:扩展行动空间 LLM 驱动的智能体可以通过工具使用和具身行动,扩展其行动能力。 1.3.1 工具使用 LLM 可以使用外部工具来完成任务,例如,ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs 提出了一种通用的工具使用框架 ToolLLM,可以帮助 LLM 使用各种 API。 1.3.2 具身行动 LLM 可以控制机器人等具身智能体,在物理环境中执行任务,例如,PaLM-E. An Embodied Multimodal Language Model✅ 提出了一种具身多模态语言模型 PaLM-E. 可以进行具身行动。✅ 2. 智能体在实践中:LLM 驱动的智能体应用 LLM 驱动的智能体在各个领域展现出巨大的应用潜力。 2.1 单个智能体的通用能力 2.1.1 任务导向部署 LLM 驱动的智能体可以用于完成各种特定任务,例如: 网络场景: WebArena: A Realistic Web Environment for Building Autonomous Agents 提供了一个真实的网络环境,用于构建自主智能体。 生活场景: InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent 探讨了 ChatGPT 作为合作智能体的潜力。 2.1.2 创新导向部署 LLM 驱动的智能体可以用于推动创新,例如: 科学研究: Emergent autonomous scientific research capabilities of large language models 探讨了 LLM 在科学研究中的应用。 艺术创作: Generative Agents: Interactive Simulacra of Human Behavior 展示了 LLM 在艺术创作中的应用。 2.1.3 生命周期导向部署 LLM 驱动的智能体可以用于模拟生物的生命周期,例如: 游戏场景: Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks 展示了 LLM 驱动的智能体在 Minecraft 中的应用。 社会模拟: S3: Social-network Simulation System with Large Language Model-Empowered Agents 提出了一种基于 LLM 的社会网络模拟系统。 2.2 多个智能体的协调潜力 2.2.1 合作交互以实现互补 LLM 驱动的智能体可以协同合作,发挥各自的优势,例如: 无序合作: RoCo: Dialectic Multi-Robot Collaboration with Large Language Models 提出了一种基于 LLM 的多机器人协作框架。 有序合作: AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework 提出了一种基于多智能体对话的 LLM 应用框架。 2.2.2 对抗交互以实现进步 LLM 驱动的智能体可以通过对抗交互,提升各自的能力,例如: 辩论: Improving Factuality and Reasoning in Language Models through Multiagent Debate 展示了 LLM 通过辩论来提升事实性和推理能力。 博弈: Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning 展示了 LLM 在外交博弈中的应用。 2.3 人机交互 2.3.1 指导者-执行者模式 LLM 驱动的智能体可以作为人类的助手,执行指令,例如: 教育: Math Agents: Computational Infrastructure, Mathematical Embedding, and Genomics 展示了 LLM 在数学教育中的应用。 医疗: HuatuoGPT, towards Taming Language Model to Be a Doctor 展示了 LLM 在医疗诊断和治疗中的应用。 2.3.2 平等伙伴模式 LLM 驱动的智能体可以作为人类的伙伴,进行平等的交流和合作,例如: 情感交流: SAPIEN: Affective Virtual Agents Powered by Large Language Models 展示了 LLM 在情感交流中的应用。 共同参与: Human-level play in the game of Diplomacy by combining language models with strategic reasoning 展示了 LLM 在外交博弈中的应用。 3. 智能体社会:从个体到群体 LLM 驱动的智能体可以形成社会,模拟人类社会的行为和现象。 3.1 LLM 驱动的智能体的行为和个性 3.1.1 社会行为 个体行为: Reflexion: Language Agents with Verbal Reinforcement Learning 展示了 LLM 驱动的智能体在学习和决策过程中的个体行为。 群体行为: AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents 展示了 LLM 驱动的智能体在群体中的行为模式。 3.1.2 个性 认知: Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods 探讨了 LLM 的认知能力。 情感: Emotional Intelligence of Large Language Models 探讨了 LLM 的情感智能。 性格: Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models 探讨了 LLM 的性格特征。 3.2 智能体社会环境 3.2.1 文本环境 LLM 驱动的智能体可以在文本环境中进行交互,例如,Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models 展示了 LLM 在文本游戏中的应用。 3.2.2 虚拟沙盒环境 LLM 驱动的智能体可以在虚拟沙盒环境中进行模拟,例如,Generative Agents: Interactive Simulacra of Human Behavior 展示了 LLM 在虚拟环境中的应用。 3.2.3 物理环境 LLM 驱动的智能体可以控制机器人等具身智能体,在物理环境中进行交互,例如,RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking 展示了 LLM 在机器人控制中的应用。 3.3 基于 LLM 的智能体社会模拟 LLM 驱动的智能体可以用于模拟人类社会,例如: 社会规范的出现: Emergence of Social Norms in Large Language Model-based Agent Societies 研究了 LLM 驱动的智能体社会中社会规范的形成。 社会现象的模拟: Epidemic Modeling with Generative Agents 展示了 LLM 驱动的智能体在流行病模拟中的应用。 4. 未来展望:机遇与挑战并存 LLM 驱动的智能体正处于快速发展阶段,其强大的语言能力、知识储备、推理规划能力以及可迁移性和泛化性,使其在各种领域展现出巨大潜力。然而,我们也必须清醒地认识到,这项技术的发展并非一帆风顺,还面临着许多挑战和风险。 4.1 互相促进:LLM 与智能体研究的双向赋能 LLM 研究为智能体研究提供了强大的基础模型,例如,LLM 可以帮助智能体进行决策、规划和行动,并有效地处理未见任务。另一方面,智能体研究也为 LLM 研究提出了新的挑战和方向,例如,如何让 LLM 更好地理解环境、学习新的技能以及进行更有效的社会交互。 4.2 评价体系:多维评估,确保智能体安全可靠 评估 LLM 驱动的智能体是一个复杂的过程,需要考虑多个维度: 效用: 评估智能体完成任务的效率和成功率,例如,AgentBench: Evaluating LLMs as Agents 提供了一个用于评估 LLM 作为智能体的能力的基准测试框架。 社会性: 评估智能体与人类和其他智能体的交互能力,例如,ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate 提出了一种基于多智能体辩论的 LLM 评估方法。 价值观: 评估智能体的道德和伦理水平,确保其行为符合人类社会价值观,例如,Constitutional AI: harmlessness from AI feedback 提出了一种基于 AI 反馈的无害性训练方法。 持续进化: 评估智能体不断学习和适应的能力,例如,Voyager: An Open-Ended Embodied Agent with Large Language Models 展示了 LLM 驱动的终身学习智能体在 Minecraft 中的应用。 4.3 安全与信任:防范风险,构建可信赖的智能体 LLM 驱动的智能体在应用过程中存在着许多潜在风险,例如: 对抗性攻击: LLM 容易受到对抗性攻击,例如,PromptAttack: Prompt-based Attack for Language Models via Gradient Search 提出了一种基于提示的 LLM 攻击方法。 可信度问题: LLM 可能存在幻觉问题,例如,Self-Contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation 探讨了 LLM 的自我矛盾幻觉问题。 其他风险: LLM 驱动的智能体可能被恶意利用,例如,The malicious use of artificial intelligence: Forecasting, prevention, and mitigation 讨论了人工智能的恶意使用问题。 为了降低风险,我们需要采取措施,例如: 增强鲁棒性: 通过对抗性训练等方法,提升 LLM 的鲁棒性。 提高可信度: 通过思维链等方法,增强 LLM 的可解释性和可信度。 规范使用: 制定相关政策和标准,规范 LLM 驱动的智能体的使用。 4.4 规模化:构建更复杂、更真实的智能体社会 随着智能体数量的增加,我们可以构建更复杂、更真实的智能体社会,例如: 提高任务效率: 例如,AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework 展示了 LLM 驱动的智能体在多智能体协作中的应用。 增强社会模拟: 例如,S3: Social-network Simulation System with Large Language Model-Empowered Agents 提出了一种基于 LLM 的社会网络模拟系统。 然而,规模化也带来了新的挑战,例如: 计算负担: 智能体数量的增加会带来巨大的计算负担。 协调难度: 协调大量智能体进行有效的合作和交流会非常困难。 信息失真: 智能体数量的增加可能导致信息失真和传播问题。 4.5 开放问题:探索未知,展望未来 LLM 驱动的智能体领域还有许多开放问题需要进一步研究,例如: 通向 AGI 的道路: LLM 驱动的智能体是否能成为通向 AGI 的道路? 从虚拟到现实: 如何将 LLM 驱动的智能体从虚拟环境迁移到真实的物理环境? 群体智能: 如何利用 LLM 驱动的智能体社会来探索群体智能的奥秘? 代理即服务: 如何将 LLM 驱动的智能体作为服务提供给用户? 5. 结语 LLM 驱动的智能体正在改变着我们对人工智能的理解,也为我们带来了前所未有的机遇和挑战。未来,我们期待着 LLM 驱动的智能体能够在更多领域发挥作用,为人类社会带来更大的福祉。 参考文献 [1] The Rise and Potential of Large Language Model Based Agents: A Survey. Zhiheng Xi et al. (2023). https://arxiv.org/abs/2309.07864 [2] LLM-Agent-Paper-List. https://github.com/WooooDyy/LLM-Agent-Paper-List 致谢 感谢复旦大学自然语言处理团队(FudanNLP)的辛勤付出,为我们带来了这篇精彩的综述论文。
近年来,人工智能领域取得了令人瞩目的进展,其中大型语言模型(LLM)的出现被认为是通向通用人工智能(AGI)的关键一步。LLM 拥有强大的语言理解和生成能力,为构建能够感知环境、做出决策并执行行动的智能体提供了坚实的基础。本文将深入探讨 LLM 驱动的智能体,从其构建、应用到社会模拟等方面展开论述。
1. 智能体的诞生:LLM 驱动的智能体构建
LLM 驱动的智能体通常由三个主要部分组成:大脑、感知和行动。
1.1 大脑:以 LLM 为核心
LLM 是智能体的大脑,赋予其强大的语言能力,使其能够理解和生成自然语言。
1.1.1 自然语言交互
LLM 在自然语言交互方面展现出卓越的能力,包括:
1.1.2 知识
LLM 的知识储备是其强大能力的基石,主要来源包括:
1.1.3 内存
LLM 的内存能力决定了其记忆和检索信息的能力。
1.1.4 推理与规划
LLM 的推理和规划能力是其解决复杂问题、制定行动计划的关键。
1.1.5 可迁移性和泛化性
LLM 的可迁移性和泛化性决定了其在不同任务和场景下的适应能力。
1.2 感知:多模态输入
LLM 驱动的智能体可以通过多模态感知,获取更丰富的信息。
1.2.1 视觉
LLM 可以理解和生成图像信息,例如,Images Speak in Images: A Generalist Painter for In-Context Visual Learning 提出了一个用于上下文视觉学习的通用模型 Painter。
1.2.2 音频
LLM 可以理解和生成音频信息,例如,Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 训练了一个神经编解码语言模型 VALL-E. 具备上下文学习能力。✅
1.3 行动:扩展行动空间
LLM 驱动的智能体可以通过工具使用和具身行动,扩展其行动能力。
1.3.1 工具使用
LLM 可以使用外部工具来完成任务,例如,ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs 提出了一种通用的工具使用框架 ToolLLM,可以帮助 LLM 使用各种 API。
1.3.2 具身行动
LLM 可以控制机器人等具身智能体,在物理环境中执行任务,例如,PaLM-E. An Embodied Multimodal Language Model✅ 提出了一种具身多模态语言模型 PaLM-E. 可以进行具身行动。✅
2. 智能体在实践中:LLM 驱动的智能体应用
LLM 驱动的智能体在各个领域展现出巨大的应用潜力。
2.1 单个智能体的通用能力
2.1.1 任务导向部署
LLM 驱动的智能体可以用于完成各种特定任务,例如:
2.1.2 创新导向部署
LLM 驱动的智能体可以用于推动创新,例如:
2.1.3 生命周期导向部署
LLM 驱动的智能体可以用于模拟生物的生命周期,例如:
2.2 多个智能体的协调潜力
2.2.1 合作交互以实现互补
LLM 驱动的智能体可以协同合作,发挥各自的优势,例如:
2.2.2 对抗交互以实现进步
LLM 驱动的智能体可以通过对抗交互,提升各自的能力,例如:
2.3 人机交互
2.3.1 指导者-执行者模式
LLM 驱动的智能体可以作为人类的助手,执行指令,例如:
2.3.2 平等伙伴模式
LLM 驱动的智能体可以作为人类的伙伴,进行平等的交流和合作,例如:
3. 智能体社会:从个体到群体
LLM 驱动的智能体可以形成社会,模拟人类社会的行为和现象。
3.1 LLM 驱动的智能体的行为和个性
3.1.1 社会行为
3.1.2 个性
3.2 智能体社会环境
3.2.1 文本环境
LLM 驱动的智能体可以在文本环境中进行交互,例如,Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models 展示了 LLM 在文本游戏中的应用。
3.2.2 虚拟沙盒环境
LLM 驱动的智能体可以在虚拟沙盒环境中进行模拟,例如,Generative Agents: Interactive Simulacra of Human Behavior 展示了 LLM 在虚拟环境中的应用。
3.2.3 物理环境
LLM 驱动的智能体可以控制机器人等具身智能体,在物理环境中进行交互,例如,RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking 展示了 LLM 在机器人控制中的应用。
3.3 基于 LLM 的智能体社会模拟
LLM 驱动的智能体可以用于模拟人类社会,例如:
4. 未来展望:机遇与挑战并存
LLM 驱动的智能体正处于快速发展阶段,其强大的语言能力、知识储备、推理规划能力以及可迁移性和泛化性,使其在各种领域展现出巨大潜力。然而,我们也必须清醒地认识到,这项技术的发展并非一帆风顺,还面临着许多挑战和风险。
4.1 互相促进:LLM 与智能体研究的双向赋能
LLM 研究为智能体研究提供了强大的基础模型,例如,LLM 可以帮助智能体进行决策、规划和行动,并有效地处理未见任务。另一方面,智能体研究也为 LLM 研究提出了新的挑战和方向,例如,如何让 LLM 更好地理解环境、学习新的技能以及进行更有效的社会交互。
4.2 评价体系:多维评估,确保智能体安全可靠
评估 LLM 驱动的智能体是一个复杂的过程,需要考虑多个维度:
4.3 安全与信任:防范风险,构建可信赖的智能体
LLM 驱动的智能体在应用过程中存在着许多潜在风险,例如:
为了降低风险,我们需要采取措施,例如:
4.4 规模化:构建更复杂、更真实的智能体社会
随着智能体数量的增加,我们可以构建更复杂、更真实的智能体社会,例如:
然而,规模化也带来了新的挑战,例如:
4.5 开放问题:探索未知,展望未来
LLM 驱动的智能体领域还有许多开放问题需要进一步研究,例如:
5. 结语
LLM 驱动的智能体正在改变着我们对人工智能的理解,也为我们带来了前所未有的机遇和挑战。未来,我们期待着 LLM 驱动的智能体能够在更多领域发挥作用,为人类社会带来更大的福祉。
参考文献
[1] The Rise and Potential of Large Language Model Based Agents: A Survey. Zhiheng Xi et al. (2023). https://arxiv.org/abs/2309.07864
[2] LLM-Agent-Paper-List. https://github.com/WooooDyy/LLM-Agent-Paper-List
致谢
感谢复旦大学自然语言处理团队(FudanNLP)的辛勤付出,为我们带来了这篇精彩的综述论文。