🕵️‍♀️ 一切从用户出发：构建更懂你的个人记忆宝库

“我的手机相册里到底有多少照片？”

“上个月我跑了多少次步？”

“上次去纽约旅行时，我到底吃了多少顿美食？”

是不是感觉似曾相识？我们每天都在用手机记录生活，照片、视频、截图，不知不觉间就积累了庞大的个人记忆库。然而，面对这些海量数据，想要快速找到想要的记忆碎片，却如同大海捞针般困难。

传统的相册搜索功能，只能基于简单的关键词或时间进行检索，对于那些需要上下文理解的复杂问题束手无策。想象一下，你想要寻找“上次和朋友聚餐时拍的那张照片”，却只能输入“朋友”或“餐厅”作为关键词，结果可想而知，必然是无数张毫不相关的照片扑面而来，让你淹没在信息的海洋中。 😩

为了解决这一难题，我们开发了 OmniQuery 系统，一个能够理解上下文、更智能的个人记忆问答系统。它就像是一位经验丰富的“记忆宫殿”管理员，能够帮你整理、归纳、理解你的记忆碎片，并根据你的自然语言提问，精准地找到你想要的答案。

🔬 深入用户需求：一个月的“日记”研究

俗话说， “磨刀不误砍柴工”。在设计 OmniQuery 之前，我们首先进行了一项为期一个月的日记研究，邀请了 29 位参与者记录下他们在日常生活中真实遇到的、想要查询个人记忆的问题。

分析收集到的 299 条真实用户查询后，我们发现，超过 74% 的问题都需要结合上下文信息才能得到解答，例如：

“上周我喝过什么奶茶？” (需要结合时间信息)
“在巴塞罗那，我参观过多少个教堂？” (需要结合地理位置信息)
“去年和爷爷的合影在哪里？” (需要结合人物信息)

这些问题无法简单地通过关键词匹配来解决，而是需要对用户的记忆进行更深层次的理解和推理。为此，我们建立了一个上下文信息分类法，将用户查询中涉及的上下文信息分为三类：

原子上下文：指通常可以从单个记忆实例中获取的上下文信息，例如时间、地点、人物、环境、活动等。类别例子时间信息 “上周”，“早上” 地理位置信息 “巴塞罗那”，“餐厅” 人物 “我和爷爷” 视觉元素 “短发”，“我的狗” 环境 “健身房” 活动 “有氧运动” 情感 “最快乐的时刻”
组合上下文：指由多个原子上下文组合而成的、更复杂的上下文信息，例如一次旅行、一场会议、一次聚会等。例如，“CHI 2024” 就包含了时间（2024 年 CHI 大会期间）、地点（CHI 大会举办城市）、人物（参会者）等多个原子上下文信息。
语义知识：指用户个人经历中蕴含的、更抽象的知识，例如“Jason 喜欢每周去 3-4 次健身房”。

下图展示了不同类型上下文信息在用户查询中的出现频率：

pie showData
title 上下文信息类型
"原子上下文" : 75
"组合上下文" : 191
"混合查询" : 33

🧠 OmniQuery：让机器更懂你的记忆

基于上述分类法，我们设计了 OmniQuery 系统，其核心在于一个与查询无关的预处理流程，用于从相互关联的记忆实例中提取、整合上下文信息，并用这些信息来增强每个记忆实例，使其更易于检索和理解。

具体来说，该预处理流程包括三个步骤：

结构化单个记忆实例：利用多模态模型对每个记忆实例（照片、视频等）进行分析，提取其中的文本信息（例如照片中的文字、视频中的语音转录文本等）、视觉信息（例如人物、物体、场景等），并根据提取的信息自动标注相应的原子上下文信息。例如，对于一张拍摄于 CHI 2024 会场、展示了会议 Wi-Fi 信息的照片，OmniQuery 会自动识别出照片中的文字信息“CHI 2024”、“Wi-Fi”等，并将其与“会议”、“CHI 大会举办城市”等原子上下文信息相关联。
识别组合上下文：由于用户的记忆是按照时间顺序线性记录的，因此与某个特定事件相关的记忆实例往往会聚集在一起。利用这一特点，OmniQuery 采用滑动窗口的方法，将用户的所有记忆实例按照时间顺序分成多个时间段，并在每个时间段内分析其中包含的原子上下文信息，自动识别出潜在的组合上下文信息。例如，如果用户在一段时间内拍摄了多张包含“CHI 2024”、 “会议中心”、“酒店”等原子上下文信息的照片，OmniQuery 就会自动推断出用户在这段时间内参加了 CHI 2024 大会，并将这些照片与“CHI 2024”这一组合上下文信息相关联。
推断语义知识：语义知识是指用户个人经历中蕴含的、更抽象的知识。例如，如果用户的聊天记录中经常出现“Jason 每周去 3-4 次健身房”这样的句子，OmniQuery 就会自动推断出“Jason 有健身习惯”这一语义知识。为了推断语义知识，OmniQuery 会分析用户的所有记忆实例和组合上下文信息，并利用大型语言模型（LLM）进行推理。

经过以上三个步骤的处理后，用户的记忆实例就被赋予了丰富的上下文信息，从而能够支持更复杂、更智能的查询。

❓ OmniQuery：像搜索引擎一样提问

OmniQuery 的问答系统采用了检索增强生成（RAG）架构，该架构结合了传统信息检索方法和大型语言模型的优势，能够在处理海量数据的同时，生成更准确、更流畅的答案。

具体来说，当用户输入一个问题时，OmniQuery 会首先对问题进行增强，将其分解成多个更具体的子问题，并根据上下文信息进行补充和完善。

例如，对于问题“我在 CHI 2024 期间参加了哪些社交活动？”，OmniQuery 会将其分解成以下几个子问题：

CHI 2024 的时间范围是什么时候？
CHI 2024 的举办地点在哪里？
哪些活动属于社交活动？

接下来，OmniQuery 会根据增强后的问题，从结构化的记忆实例、组合上下文信息和语义知识库中检索相关信息，并将检索到的信息输入大型语言模型，生成最终的答案。

为了提高答案的生成质量，OmniQuery 还采用了思维链提示（Chain-of-Thought Prompting）技术，引导大型语言模型进行更深入的推理，生成更准确、更全面的答案。

🏆 OmniQuery：用户评测结果

为了评估 OmniQuery 的性能，我们招募了 10 位参与者，让他们在自己的个人记忆数据上测试 OmniQuery 和一个传统的基于关键词匹配的检索系统。

结果表明，OmniQuery 在准确率和完整度方面均优于传统的检索系统。

指标	OmniQuery	传统检索系统
准确率	71.5%	43.1%
获胜或打平率	74.5%	25.5%

参与者们对 OmniQuery 的评价也普遍高于传统的检索系统。他们认为 OmniQuery 能够更好地理解他们的问题，并给出更准确、更完整的答案。

🔮 OmniQuery：未来展望

OmniQuery 的出现，为我们提供了一种全新的方式来管理和利用个人记忆数据。在未来，OmniQuery 将继续朝着更加智能、更加人性化的方向发展，例如：

支持多模态输入和输出：例如允许用户使用语音、图像甚至视频来提问，并以更直观的方式展示答案。
支持错误纠正：例如允许用户对系统识别出的错误信息进行纠正，以提高系统的准确率。
支持后续查询：例如允许用户根据系统的回答，进一步 уточнить свой запрос 或提出新的问题。

我们相信，随着人工智能技术的不断发展，OmniQuery 将会变得越来越强大，最终成为我们每个人不可或缺的“记忆助手”。

🕵️‍♀️ 一切从用户出发：构建更懂你的个人记忆宝库

🔬 深入用户需求：一个月的“日记”研究

🧠 OmniQuery：让机器更懂你的记忆

❓ OmniQuery：像搜索引擎一样提问

🏆 OmniQuery：用户评测结果

🔮 OmniQuery：未来展望

📚 参考文献

评论

发表回复 取消回复

更多文章

发表回复取消回复