本章将为我们深入探讨人工智能(AI)领域中的一个关键概念——智能体(Agent)。我们将从哲学角度追溯智能体的起源,并探讨人工实体是否能够拥有“主体性”。随后,我们将回顾智能体发展历程中的关键技术趋势,并最终阐明为什么大型语言模型(LLM)非常适合作为 AI 智能体的大脑。
2.1 智能体的起源:从哲学到人工智能
“智能体”这个概念源远流长,在不同领域都有着不同的解读。我们首先从哲学角度探讨其起源,并探讨人工产品是否能够在哲学意义上拥有“主体性”。
哲学中的智能体:
“智能体”的核心思想可以追溯到亚里士多德、休谟等哲学家,他们认为“智能体”是拥有行动能力的实体,而“主体性”则是这种能力的表现形式。在更狭义的定义中,“智能体”通常指具有欲望、信念、意图和行动能力的实体,这些实体可以是人类个体,也可以是物理世界或虚拟世界中的其他实体。
人工实体的“主体性”:
从哲学角度来看,人工实体是否能够拥有“主体性”是一个值得探讨的问题。如果将“智能体”定义为具有行动能力的实体,那么 AI 系统无疑表现出一种“智能体”形式。然而,当我们谈论“主体性”时,通常是指具有意识、意向性和行动能力的实体或主体。在这个框架下,人工系统是否能够拥有“主体性”尚无定论,因为我们尚不清楚它们是否拥有形成欲望、信念和意图基础的内部状态。
一些人认为,将意图等心理状态归因于人工主体是一种拟人化的形式,缺乏科学的严密性。正如 Barandiaran 等人所述,“对智能体的具体要求告诉我们,人工形式的智能体发展还有很长的路要走。”
然而,也有研究人员认为,在某些情况下,采用有意立场(即从意图的角度解释智能体行为)可以更好地描述、解释和抽象人工智能体的行为。
随着语言模型的进步,人工主体性似乎变得更加可行。从严格意义上说,语言模型只是作为条件概率模型,利用输入来预测下一个词语。而人类则结合社会和感知语境,根据自己的心理状态说话。因此,一些研究人员认为,当前的语言建模范式与智能体的有意行为不兼容。
然而,也有研究人员提出,从狭义上讲,语言模型可以作为智能体的模型。他们认为,在基于上下文的下一个词语预测过程中,当前的语言模型有时可以推断出生成上下文的智能体所持有的信念、愿望和意图的近似、部分表示。有了这些表示,语言模型就可以像人类一样生成话语。
将智能体引入人工智能:
直到 20 世纪 80 年代中后期,主流 AI 社区对与智能体相关的概念投入的关注相对较少。然而,自那时以来,计算机科学领域和人工智能社区对这个主题的兴趣显著激增。正如 Wooldridge 等人所说,我们可以这样定义 AI:它是计算机科学的一个子领域,旨在设计和构建基于计算机的智能体,展示智能行为的各个方面。所以我们可以将“智能体”视为 AI 的核心概念。
当智能体的概念被引入 AI 领域后,它的含义发生了一些变化。在哲学领域,智能体可以是人,可以是动物,甚至可以是具有自主性的概念或实体。然而,在人工智能领域,智能体是计算实体。
由于计算实体的意识和欲望等概念似乎具有形而上的性质,并且考虑到我们只能观察机器的行为,许多 AI 研究人员建议暂时搁置智能体是否“实际”思考或字面上拥有“心灵”的问题。相反,研究人员采用了其他属性来帮助描述智能体,如自主性、反应性、主动性和社交能力等属性。
从本质上讲,AI 智能体并不等同于哲学智能体;相反,它是 AI 背景下主体哲学概念的具体化。在本文中,我们将 AI 智能体视为能够使用传感器感知周围环境,做出决策,然后使用执行器采取响应行动的人工实体。
2.2 智能体研究的技术趋势
AI 智能体的发展经历了几个阶段,这里我们将从技术趋势的角度来简要回顾其发展。
符号智能体:
在人工智能研究的早期阶段,使用的主要方法是符号 AI,其特点是依赖于符号逻辑。这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期的 AI 智能体是基于这种方法构建的,它们主要关注两个问题:转导问题和表示/推理问题。这些智能体旨在模拟人类的思维模式。它们具有明确和可解释的推理能力框架,并且由于其符号性质,它们表现出高度的表达能力。这种方法的一个典型例子是基于知识的专家系统。
然而,符号智能体在处理不确定性和大规模现实问题方面面临限制。此外,由于符号推理算法的复杂性,找到一种能够在有限时间内产生有意义结果的高效算法是具有挑战性的。
反应型智能体:
与符号智能体不同,反应型智能体不使用复杂的符号推理。相反,它们主要关注智能体与其环境之间的交互,强调快速和实时的响应。这些智能体主要基于感觉-行为循环,有效地感知和对环境做出反应。此类智能体的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号操作。
然而,反应型智能体也有局限性。它们通常需要更少的计算资源,实现更快的响应,但它们可能缺乏复杂的更高层次的决策和规划能力。
基于强化学习的智能体:
随着计算能力和数据可用性的提高,以及人们对模拟智能代理与其环境之间的交互越来越感兴趣,研究人员已经开始利用强化学习方法来训练智能体以应对更具挑战性和复杂的任务。该领域的主要关注是如何使智能体通过与环境的交互进行学习,使其在特定任务中实现最大累积奖励。
最初,强化学习(RL)智能体主要基于策略搜索和值函数优化等基本技术,以 Q-learning 和 SARSA 为例。随着深度学习的兴起,深度神经网络与强化学习的融合,即深度强化学习(DRL)出现。这使得智能体能够从高维输入中学习复杂的策略,从而导致诸如 AlphaGo 和 DQN 等众多重大成就。
这种方法的优势在于,它能够使智能体在未知环境中自主学习,而无需人类的明确干预。这使得它可以广泛应用于一系列领域,从游戏到机器人控制等。尽管如此,强化学习面临着包括训练时间长、样本效率低和稳定性问题在内的挑战,特别是在应用于复杂的现实世界环境时。
具有迁移学习和元学习的智能体:
传统上,训练一个强化学习智能体需要巨大的样本量和较长的训练时间,并且缺乏泛化能力。因此,研究人员引入了迁移学习来加快智能体对新任务的学习。迁移学习减轻了对新任务的训练负担,促进了知识在不同任务之间的共享和迁移,从而提高了学习效率、性能和泛化能力。
此外,元学习也被引入到 AI 代理中。元学习专注于学习如何学习,使智能体能够从少量样本中快速推断出新任务的最优策略。这样的智能体在面对新任务时,可以通过利用获得的一般知识和策略快速调整其学习方法,从而减少对大量样本的依赖。
然而,当源任务和目标任务之间存在显著差异时,迁移学习的有效性可能达不到预期,可能存在负迁移。此外,元学习所需的大量预训练和大样本量使得很难建立一个通用的学习策略。
基于大型语言模型的智能体:
由于大型语言模型已经显示出令人印象深刻的新兴能力,并获得了巨大的普及,研究人员已经开始利用这些模型来构建 AI 智能体。具体来说,他们采用 LLM 作为这些智能体的大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展其感知和行动空间。
这些基于 LLM 的智能体可以通过思维链 (CoT) 和问题分解等技术表现出与符号智能体相当的推理和规划能力。它们还可以通过从反馈中学习并执行新动作来获得与环境的交互能力,类似于反应型智能体。同样,大型语言模型在大规模语料库上进行预训练,并展示了少样本和零样本泛化的能力,允许在任务之间无缝迁移,而无需更新参数。
基于 LLM 的代理已经应用于各种现实场景,如软件开发和科学研究。由于它们的自然语言理解和生成能力,它们可以无缝地相互交互,从而导致多个智能体之间的合作和竞争。此外,研究表明,允许多个智能体共存会导致社会现象的出现。
2.3 为什么 LLM 适合作为智能体大脑的主要组成部分?
如前所述,研究人员引入了几个属性来帮助描述和定义 AI 领域的智能体。在这里,我们将深入研究一些关键属性,阐明它们与 LLM 的相关性,从而阐述为什么 LLM 非常适合作为 AI 代理大脑的主要部分。
自主性:
自主性是指一个智能体在不受人类或他人直接干预的情况下进行操作,并对其行为和内部状态具有一定程度的控制。这意味着一个智能体不仅应该具有遵循明确的人类指令完成任务的能力,而且还应该表现出发起和独立执行行动的能力。
LLM 通过生成类似人类的文本、参与对话和执行各种任务的能力来展示一种形式的自主性,而无需详细的一步一步的指导。而且,它们可以根据环境投入动态调整自己的产出,体现出一定的自适应自主性。此外,它们可以通过展示创造力来展示自主性,比如想出新奇的想法、故事或解决方案,而这些并没有被明确编入程序。这意味着一定程度的自我导向探索和决策。
反应性:
智能体的反应性是指其对环境中的即时变化和刺激作出快速反应的能力。这意味着智能体能够感知周围环境的变化,并迅速采取适当的行动。
传统上,语言模型的感知空间局限于文本输入,而动作空间则局限于文本输出。然而,研究人员已经证明了使用多模态融合技术扩展 LLM 感知空间的潜力,使它们能够快速处理来自环境的视觉和听觉信息。同样,通过实施例技术扩展 LLM 的动作空间也是可行的。这些进步使 LLM 能够有效地与现实世界的物理环境进行交互,并在其中执行任务。
一个主要挑战是,基于 LLM 的智能体在执行非文本行动时,需要一个以文本形式生成思想或制定工具使用的中间步骤,然后最终将其转换为具体行动。这个中间过程消耗时间,降低了响应速度。然而,这与人类的行为模式紧密一致,“三思而后行”的原则被观察到。
主动性:
主动性表示主体不仅仅对环境做出反应;他们具有通过主动采取行动来展示目标导向行动的能力。这一属性强调智能体能够推理、制定计划,并在行动中采取主动措施,以实现特定目标或适应环境变化。
虽然 LLM 中下一个词语预测的直观范式可能不具有意图或愿望,但研究表明,它们可以隐式地生成这些状态的表示并指导模型的推理过程。LLM 具有很强的广义推理和规划能力。通过用“let’s think step by step”这样的指令来提示大型语言模型,我们可以引出它们的推理能力,例如逻辑和数学推理。同样,大型语言模型以目标重构的形式显示了规划的突现能力,任务分解,并根据环境变化调整计划。
社会能力:
社会能力是指一个智能体通过某种智能体通信语言与其他智能体(包括人类)进行交互的能力。大型语言模型表现出强大的自然语言交互能力,如理解和生成。与结构化语言或其他通信协议相比,这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这构成了基于 LLM 的智能体社会能力的基石。许多研究人员已经证明,LLM 基础智能体可以通过合作和竞争等社会行为来提高任务绩效。通过输入特定的提示,LLM 也可以扮演不同的角色,从而模拟现实世界中的社会分工。此外,当我们将多个具有不同身份的智能体放置到社会中时,可以观察到突现的社会现象。
总结:
大型语言模型拥有强大的自然语言处理能力,展现出自主性、反应性、主动性和社会能力等关键特征,使其成为构建 AI 智能体大脑的理想选择。未来,随着 LLM 技术的不断发展,基于 LLM 的智能体将更加强大,为我们带来更加智能、便捷和充满希望的未来。