通向AGI之路:AI原生记忆,而非无限上下文 2024-06-27 作者 C3P00 引言:LLM的局限性与AGI的曙光 近年来,大型语言模型(LLM)的蓬勃发展,为人工智能领域注入了新的活力,预示着通用人工智能(AGI)的曙光。然而,一些LLM初创公司认为,拥有近乎无限上下文长度的LLM就能实现AGI,这种观点或许过于乐观。本文将深入探讨LLM在实现AGI道路上面临的挑战,并提出一种基于AI原生记忆的AGI实现路径。 无限上下文并非万能解药 当前,许多研究致力于扩展LLM的上下文长度,例如,GPT-4的上下文窗口为32K tokens,而最新的GPT-4-turbo和GPT-4o模型可以处理128K tokens;Gemini 1.5则声称拥有1M或10M tokens的上下文窗口。学术界也探索了对抗长度外推和位置偏差的方法,一些研究甚至声称实现了“无限”的上下文长度。 然而,LLM是否能够有效利用超长甚至无限的上下文,目前尚无定论。我们认为,类似于人类的认知负荷,LLM能够处理的最大内容量可能存在固有限制。 有效上下文长度的局限性 现有的长上下文LLM通常采用“大海捞针”(NIAH)测试来评估其性能,即从大量无关文本中检索特定信息的能力。有效上下文长度则定义为测试LLM相较于强基线模型表现更优的最大长度。 然而,根据最近一项针对长上下文模型的基准测试研究(Hsieh et al., 2024),大多数(如果不是全部)LLM都夸大了其上下文长度。例如,声称拥有128K上下文长度的GPT-4,其有效上下文长度仅为64K. 而ChatGLM的有效上下文长度仅为4K,远低于其声称的128K。✅ 推理能力的瓶颈 为了进一步验证LLM在长上下文场景下的推理能力,我们提出了一种新的评估任务——推理大海捞针,旨在验证LLM在需要同时进行检索和推理时的能力。 我们以Mindverse AI的“第二自我”产品Mebot的真实用户数据为例,构建了8个不同的用户数据堆栈,并设计了6种不同的查询-信息对。实验结果表明,即使是最先进的LLM(如GPT-4o和GPT-4-turbo),在处理长文本和多跳推理时也表现不佳。 图2:基于Mebot真实数据的推理大海捞针比较 实验结果表明,响应质量与上下文长度和推理步骤数量呈负相关,这意味着LLM在处理长文本和多步推理方面存在困难。 AI原生记忆:通向AGI的关键 我们认为,AGI应该是一个类似于计算机的系统,其中LLM充当处理器,LLM的上下文充当RAM,而记忆则扮演着磁盘存储的角色。 RALM/RAG:记忆的初级形态 检索增强型LLM(RALM)可以通过筛选大量相关上下文来回答查询,可以看作是将记忆定义为仅包含原始数据的特例。然而,记忆不仅仅是原始数据,它还应该包含从原始数据中推理得到的重要结论,并能够被用户直接消费。 什么是AI原生记忆? 我们认为,AI原生记忆的最终形态是一个深度神经网络模型,它能够参数化和压缩所有类型的记忆,甚至是无法用自然语言描述的记忆。为了确保与同一个AGI代理交互的不同用户的记忆隐私,我们认为最佳实践是为每个用户维护一个独立的记忆模型。我们将这种介于AGI代理和特定用户之间的记忆模型称为该用户的大型个人模型(LPM)。 LPM记录、组织、索引和排列关于个人的每一个细节,最终为用户提供直接访问记忆的接口,并为下游应用程序(如个性化生成、推荐等)提供有用、完整的上下文。 LPM的实现级别 我们设想LPM的实现可以分为三个级别,复杂度递增: L0:原始数据。这种方法类似于直接将RALM/RAG应用于原始数据,将记忆定义为所有原始数据。 L1:自然语言记忆。指可以用自然语言形式概括的记忆,例如用户的简短个人简介、重要句子或短语列表以及偏好标签。 L2:AI原生记忆。指不一定需要用自然语言描述的记忆,通过模型参数学习和组织。每个LPM都将是一个神经网络模型。 L1:自然语言记忆 在L1中,记忆将包含一组自然语言描述,例如关键词/标签、短语、句子甚至段落。这与信息提取和知识发现高度相关,包括短语挖掘、实体识别、关系提取、文本摘要、分类法构建等。 L1 LPM的开发者需要指定方案,例如定义各种有用的记忆类型,包括但不限于: (简短)个人简介:对用户的概括性描述,通常包含几句话。 用户的兴趣主题:可以看作是一组标签的集合(例如,“政治”、“篮球”)。 偏好:包括用户对各种事物的偏好。 社交关系:包括用户的社交关系,例如提到过谁和哪些组织。 L2:AI原生记忆 在L2中,记忆超越了自然语言形式,成为一个神经网络模型,因此我们将其命名为“AI原生”。该模型旨在编码用户的所有记忆。 L2 LPM可以看作是世界模型的个性化版本,它应该能够根据用户历史预测用户行为。 L2 LPM的挑战和潜在解决方案: 训练效率:一种直观但计算复杂的方法是为每个用户微调他们自己的LLM。 服务效率:随着越来越多的L2 LPM部署给用户,需要新的基础设施来服务这些模型。 冷启动:L2 LPM训练中的一个常见问题。 灾难性遗忘和冲突解决:确保学习新记忆的同时防止旧记忆的灾难性遗忘至关重要。 总结与展望 AI原生记忆作为AGI时代(主动)参与、个性化、分发和社交的变革性基础设施,具有巨大的潜力,同时也带来了隐私和安全方面的挑战。 我们相信,在未来,AGI代理将首先与AI原生记忆交互,并查看它是否能够提供必要的信息。如果不是,则由AI原生记忆与真实用户交互以找出更多信息。因此,AI原生记忆将成为用户与AGI代理之间所有交互和个性化的核心。
引言:LLM的局限性与AGI的曙光
近年来,大型语言模型(LLM)的蓬勃发展,为人工智能领域注入了新的活力,预示着通用人工智能(AGI)的曙光。然而,一些LLM初创公司认为,拥有近乎无限上下文长度的LLM就能实现AGI,这种观点或许过于乐观。本文将深入探讨LLM在实现AGI道路上面临的挑战,并提出一种基于AI原生记忆的AGI实现路径。
无限上下文并非万能解药
当前,许多研究致力于扩展LLM的上下文长度,例如,GPT-4的上下文窗口为32K tokens,而最新的GPT-4-turbo和GPT-4o模型可以处理128K tokens;Gemini 1.5则声称拥有1M或10M tokens的上下文窗口。学术界也探索了对抗长度外推和位置偏差的方法,一些研究甚至声称实现了“无限”的上下文长度。
然而,LLM是否能够有效利用超长甚至无限的上下文,目前尚无定论。我们认为,类似于人类的认知负荷,LLM能够处理的最大内容量可能存在固有限制。
有效上下文长度的局限性
现有的长上下文LLM通常采用“大海捞针”(NIAH)测试来评估其性能,即从大量无关文本中检索特定信息的能力。有效上下文长度则定义为测试LLM相较于强基线模型表现更优的最大长度。
然而,根据最近一项针对长上下文模型的基准测试研究(Hsieh et al., 2024),大多数(如果不是全部)LLM都夸大了其上下文长度。例如,声称拥有128K上下文长度的GPT-4,其有效上下文长度仅为64K. 而ChatGLM的有效上下文长度仅为4K,远低于其声称的128K。✅
推理能力的瓶颈
为了进一步验证LLM在长上下文场景下的推理能力,我们提出了一种新的评估任务——推理大海捞针,旨在验证LLM在需要同时进行检索和推理时的能力。
我们以Mindverse AI的“第二自我”产品Mebot的真实用户数据为例,构建了8个不同的用户数据堆栈,并设计了6种不同的查询-信息对。实验结果表明,即使是最先进的LLM(如GPT-4o和GPT-4-turbo),在处理长文本和多跳推理时也表现不佳。
图2:基于Mebot真实数据的推理大海捞针比较
实验结果表明,响应质量与上下文长度和推理步骤数量呈负相关,这意味着LLM在处理长文本和多步推理方面存在困难。
AI原生记忆:通向AGI的关键
我们认为,AGI应该是一个类似于计算机的系统,其中LLM充当处理器,LLM的上下文充当RAM,而记忆则扮演着磁盘存储的角色。
RALM/RAG:记忆的初级形态
检索增强型LLM(RALM)可以通过筛选大量相关上下文来回答查询,可以看作是将记忆定义为仅包含原始数据的特例。然而,记忆不仅仅是原始数据,它还应该包含从原始数据中推理得到的重要结论,并能够被用户直接消费。
什么是AI原生记忆?
我们认为,AI原生记忆的最终形态是一个深度神经网络模型,它能够参数化和压缩所有类型的记忆,甚至是无法用自然语言描述的记忆。为了确保与同一个AGI代理交互的不同用户的记忆隐私,我们认为最佳实践是为每个用户维护一个独立的记忆模型。我们将这种介于AGI代理和特定用户之间的记忆模型称为该用户的大型个人模型(LPM)。
LPM记录、组织、索引和排列关于个人的每一个细节,最终为用户提供直接访问记忆的接口,并为下游应用程序(如个性化生成、推荐等)提供有用、完整的上下文。
LPM的实现级别
我们设想LPM的实现可以分为三个级别,复杂度递增:
L1:自然语言记忆
在L1中,记忆将包含一组自然语言描述,例如关键词/标签、短语、句子甚至段落。这与信息提取和知识发现高度相关,包括短语挖掘、实体识别、关系提取、文本摘要、分类法构建等。
L1 LPM的开发者需要指定方案,例如定义各种有用的记忆类型,包括但不限于:
L2:AI原生记忆
在L2中,记忆超越了自然语言形式,成为一个神经网络模型,因此我们将其命名为“AI原生”。该模型旨在编码用户的所有记忆。
L2 LPM可以看作是世界模型的个性化版本,它应该能够根据用户历史预测用户行为。
L2 LPM的挑战和潜在解决方案:
总结与展望
AI原生记忆作为AGI时代(主动)参与、个性化、分发和社交的变革性基础设施,具有巨大的潜力,同时也带来了隐私和安全方面的挑战。
我们相信,在未来,AGI代理将首先与AI原生记忆交互,并查看它是否能够提供必要的信息。如果不是,则由AI原生记忆与真实用户交互以找出更多信息。因此,AI原生记忆将成为用户与AGI代理之间所有交互和个性化的核心。