电商场景下,AI 真的懂你的购物意图吗?

近年来,人工智能(AI)技术飞速发展,大型语言模型(LLM)在各个领域展现出惊人的能力。在电商领域,LLM 能够帮助我们进行商品推荐、回答用户问题,甚至理解用户的购物意图。但一个关键问题是:LLM 真的能够理解用户的购物意图吗?它们是否能够像人类一样,从用户的行为中推断出背后的深层含义?

为了回答这个问题,香港科技大学的研究人员开发了一个名为 INTENTIONQA 的基准测试集,专门用于评估 LLM 在电商场景下理解用户购物意图的能力。INTENTIONQA 包含 4,360 道精心设计的问答题,涵盖了三个难度级别,并通过自动化流程确保其可扩展性,使其能够应用于大型电商平台。

INTENTIONQA:双任务多选问答

INTENTIONQA 基准测试集包含两个任务:意图理解意图利用。这两个任务分别评估 LLM 理解和利用用户购物意图的能力。

意图理解 任务要求 LLM 根据用户购买的商品推断出用户的购物意图。例如,用户购买了耳机和耳垫,LLM 需要从多个选项中选择最有可能的购物意图,例如“为了获得更舒适的佩戴体验”或“为了增强音质”。

意图利用 任务则要求 LLM 根据用户意图和已购买的商品,预测用户最有可能购买的额外商品。例如,用户购买了耳机,并且意图是“为了获得更舒适的佩戴体验”,LLM 需要从多个选项中选择最有可能的额外商品,例如“头带垫”或“耳罩”。

构建 INTENTIONQA:自动化流程和人工评估

INTENTIONQA 的构建过程主要依赖于自动化流程,并结合人工评估来确保其质量。

自动化流程 利用了现有的意图知识库 FolkScope 和事件知识图 ASER。FolkScope 收集了用户购买商品的行为和对应的购物意图,而 ASER 则包含了大量常见的事件和事件之间的关系。

研究人员首先将 FolkScope 中的意图和商品映射到 ASER 中的事件节点,并计算它们之间的相似度。然后,根据相似度,自动生成问答题,并为每个问题提供三个干扰选项。

人工评估 则用于验证自动化流程的有效性和 INTENTIONQA 的质量。研究人员招募了人工标注员,对生成的问答题进行评估,包括判断答案的正确性和干扰选项的质量。

实验结果:LLM 的挑战和机遇

研究人员对 19 个不同类型的 LLM 进行了评估,包括预训练模型、注入常识知识的模型、开源模型以及使用 API 的模型。结果表明,LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。

实验结果表明:

  • 注入常识知识有助于提升 LLM 的意图理解能力。 注入常识知识的模型在 INTENTIONQA 上的表现与规模更大的模型相当,这表明常识知识对于电商场景下的意图理解至关重要。
  • 意图利用任务比意图理解任务更具挑战性。 几乎所有在意图理解任务上表现优于随机猜测的模型,在意图利用任务上的表现都有显著下降。这可能是因为意图利用任务需要 LLM 理解所有候选商品,并进行更复杂的推理。
  • 当前 LLM 的意图理解能力仍有待提升。 尽管 LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。

研究人员还发现, 通过在外部资源上进行微调,可以显著提升 LLM 的意图理解能力。例如,在包含商品图片的意图知识库 MIND 上进行微调,可以使 LLM 在意图理解任务上的表现接近 GPT-4。

未来展望:意图感知的电商服务

INTENTIONQA 的出现为评估 LLM 在电商场景下理解用户意图的能力提供了一个新的基准测试集。研究结果表明,LLM 在意图理解方面仍面临着挑战,但同时,也展现出了巨大的潜力。

未来,研究人员将继续探索如何提升 LLM 的意图理解能力,并将其应用于电商服务中,例如:

  • 意图感知的商品推荐: 根据用户的意图,推荐更符合用户需求的商品。
  • 意图感知的搜索引擎: 理解用户的搜索意图,提供更精准的搜索结果。
  • 意图感知的客服机器人: 理解用户的意图,提供更有效的客服服务。

随着 LLM 技术的不断发展,我们相信,意图感知的电商服务将成为未来电商发展的重要方向。

参考文献

  • Ding, W., Wang, W., Kwok, S. H. D., Liu, M., Fang, T., Bai, J., … & Song, Y. (2024). INTENTIONQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce. arXiv preprint arXiv:2406.10173.
  • Yu, J., Zhang, Y., Tan, C., & Song, Y. (2023). Folkscope: Distilling Purchase Intentions from Large Language Models for E-commerce. arXiv preprint arXiv:2303.10677.
  • Zhang, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2022a). ASER: A Large-Scale Eventuality Knowledge Graph. arXiv preprint arXiv:2206.03901.
  • Zhou, Y., Zhang, Y., Yu, J., & Song, Y. (2024). Towards Human-Centric Purchase Intention Comprehension: A Critical Analysis of Large Language Models. arXiv preprint arXiv:2403.06981.
  • Xu, Y., Zhang, Y., Yu, J., & Song, Y. (2024). MIND: A Multimodal Intention Knowledge Base for E-commerce. arXiv preprint arXiv:2404.05261.
  • Xu, Y., Wang, W., Song, Y., & Kwok, S. H. D. (2021). Towards Automatic Threshold Tuning for Knowledge Base Completion. arXiv preprint arXiv:2104.07632.

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为INTENTIONQA的评估基准,旨在解决语言模型(LMs)在电子商务场景中理解购买意图的能力问题。具体来说,论文指出以往的方法在从语言模型中提取购买意图时,往往无法生成有意义且以用户为中心的意图,这些意图在现实世界的电子商务环境中具有应用价值。因此,论文的主要贡献是:

  1. 提出问题:分析语言模型是否能够理解客户的购买意图,以及它们在执行此类任务时的有效性。
  2. 任务分解:将购买意图理解分解为两个关键方面:意图理解和意图利用(IntentUnderstand和IntentUtilize)。
  3. 数据集构建:创建了一个包含4,360个问题的多选问答(MCQA)数据集,涵盖不同难度级别,用于细致评估语言模型的购买意图理解能力。
  4. 自动化流程:设计了一个自动化流程,通过转换FolkScope中的人类注释意图来自动合成问答对,以确保在大型电子商务平台上的可扩展性。
  5. 人类评估与实验:通过人类评估验证了基准的高质量和低误报率,并在19种不同大小和方法的语言模型上进行了广泛的实验,结果显示现有语言模型在某些场景中仍存在挑战,与人类表现有较大差距。

总的来说,论文的目标是通过INTENTIONQA基准,推动语言模型在电子商务服务中更好地理解和利用购买意图,从而提升产品推荐等相关下游任务的效果。

Q: 有哪些相关研究?

A: 在这篇论文中,提到了以下几类相关研究:

  1. 使用大型语言模型理解意图:研究了在不同领域中使用语言模型来理解意图,例如平滑聊天对话、增强网络搜索等。在电子商务领域,理解客户的购买意图对于改进各种下游任务(如自动化客服支持、推荐系统、产品问答回答等)非常有益。
  2. 利用大型语言模型进行意图发现:Yu等人(2023, 2024)提出利用大型语言模型(如OPT)的生成能力和常识推理能力,从共同购买记录中提取购买意图。但是,Zhou等人(2024)指出,这些模型在生成有意义的用户中心意图方面存在困难。
  3. 评估(大型)语言模型的能力:自从(大型)语言模型出现以来,已经有研究探索了它们在不同领域(如时间推理、因果推理、常识推理等)的能力,并通过各种基准测试来评估它们在不同参数和提示方法下的表现。
  4. 电子商务中的评估基准:现有的电子商务评估基准主要集中在产品和会话理解上,但忽视了意图理解这一重要方面。
  5. 基于FolkScope的意图知识提取:FolkScope是一个从预训练的大型语言模型中提取知识的意图知识库,它将客户的共同购买行为与购买意图相关联。
  6. 基于ASER的知识图谱:ASER是一个大规模的事件知识图谱,涵盖了数十亿常见的事件性知识,用于增强购买行为的上下文信息。
  7. 基于ConceptNet的意图类型分析:ConceptNet是一个多语言的通用知识图谱,用于分析不同常识关系下的意图理解。
  8. 基于MIND的知识转移:MIND是一个从LLaVA模型中提取的多模态意图知识库,用于通过微调来提高模型的意图理解能力。

这些研究为构建INTENTIONQA基准提供了理论和技术基础,并帮助评估和改进语言模型在电子商务环境中的购买意图理解能力。

Q: 论文如何解决这个问题?

A: 论文通过以下几个关键步骤来解决语言模型在电子商务中理解购买意图的问题:

  1. 定义任务:明确了两个与购买意图理解相关的任务,即IntentUnderstand(意图理解)和IntentUtilize(意图利用)。
  2. 数据收集与预处理:从FolkScope获取共同购买产品和意图断言作为源数据,并进行过滤,保留具有高可信度和典型性的意图断言。
  3. 上下文增强:使用ASER(一个大规模事件知识图谱)来检索与购买事件相关的附加上下文,增强语义覆盖范围。
  4. 相似度计算:定义了基于上下文嵌入的购买事件和意图之间的相似度计算方法。
  5. 负项(Distractors)采样:根据相似度分数,为每个任务设计了特定的负项采样策略,以生成高质量的问题和答案对。
  6. 自动问题生成:通过自动化流程将意图断言转换为问题和正确答案对,每个正确答案伴随三个负项。
  7. 难度分级:根据产品间的相似度分数,将问题分为不同难度级别,以实现细粒度的评估。
  8. 人类评估:进行人类评估来验证自动QA对构建流程的有效性和QA对的质量。
  9. 模型评估:在19种不同大小和方法的语言模型上进行广泛的实验,评估它们在购买意图理解任务上的表现。
  10. 性能分析:对模型在不同意图类型上的表现进行深入分析,并进行错误分析以了解模型失败的原因。
  11. 知识转移:探索通过微调其他来源的意图知识来提高模型性能的可能性。
  12. 公开资源:论文承诺将代码和数据公开,以促进社区进一步研究和开发。

通过这些步骤,论文不仅提出了一个系统的解决方案来评估和提高语言模型在电子商务中的购买意图理解能力,而且还通过实验和分析揭示了现有模型的局限性,并为未来的研究提供了方向。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估和分析语言模型在理解购买意图方面的能力:

  1. 模型选择与基线设置:选择了多种预训练语言模型(PTLMs),注入常识知识的语言模型,开源的大型语言模型(Open LLMs),以及使用API的大型语言模型(LLM API),作为评估的基线。
  2. 评估指标:使用准确率(accuracy)作为评估指标,即语言模型正确回答INTENTIONQA中问答对的百分比。
  3. 结果分析:展示了不同模型在两个任务(IntentUnderstand和IntentUtilize)上的表现,并分析了它们在不同难度级别(简单、中等、困难)的准确率。
  4. 常识知识的影响:评估了注入常识知识的语言模型与更大模型相比的性能,以了解常识知识对于意图理解的作用。
  5. 任务难度分析:发现IntentUtilize任务比IntentUnderstand更具挑战性,大多数模型在IntentUtilize上的表现显著下降。
  6. 跨意图类型的表现:根据ConceptNet中的不同常识关系类型,构建了兄弟姐妹问答集,以分析模型在理解不同类型意图上的有效性。
  7. 错误分析:随机抽取GPT-4回答错误的样本,并手动分类错误原因,如未能识别最典型的意图、过度推理、选择不合理的选项等。
  8. 知识转移:通过微调其他来源(如MIND)的意图知识,探索了是否能够提高模型的性能,并与未微调的基线模型进行了比较。
  9. 人类表现:计算了人类在INTENTIONQA上的表现,作为衡量语言模型性能的上限。

这些实验提供了对语言模型在电子商务购买意图理解任务上能力的深入理解,并揭示了它们在某些场景中与人类表现之间的差距。通过这些实验结果,论文强调了现有模型的局限性,并为未来的研究和模型改进提供了有价值的见解。

Q: 有什么可以进一步探索的点?

A: 根据论文内容,以下是一些可以进一步探索的点:

  1. 自动化阈值调整:论文中提到基于手动选择的阈值进行负项采样,可以探索自动化的阈值调整方法以提高效率和准确性。
  2. 利用更先进的语言模型:论文指出,更先进的大型语言模型(LLMs)有潜力创建高质量的意图知识库,这可以进一步提高问答基准的质量。
  3. 上下文信息生成:尽管论文使用了ASER知识图谱来增强上下文信息,但可以探索使用具有强大生成能力和常识推理能力的语言模型(如ChatGPT)来生成购买事件的上下文信息。
  4. 多模态数据融合:论文提到了MIND知识库,它结合了产品图像和意图知识。可以进一步探索如何有效地融合多模态数据来提升意图理解。
  5. 细粒度的意图类型分析:论文对不同常识关系下的意图理解进行了初步分析,可以进一步深入研究不同类型的意图以及它们对模型性能的影响。
  6. 模型的可解释性:提高模型在INTENTIONQA任务上的可解释性,帮助我们更好地理解模型的决策过程。
  7. 跨领域适应性:探索模型在不同电子商务领域(如不同产品类别或不同购物场景)的适应性和迁移能力。
  8. 用户个性化:研究如何将用户的个性化信息融入模型,以提供更定制化的购买意图理解和产品推荐。
  9. 模型鲁棒性:研究模型对于错误标注、异常值和噪声数据的鲁棒性。
  10. 实时应用:探索如何将这些模型集成到实时电子商务平台中,并评估它们在实际应用场景中的性能。
  11. 多语言和跨文化研究:扩展研究到多语言和跨文化环境中,以评估和提高模型在不同语言和文化背景下的购买意图理解能力。
  12. 长期跟踪和评估:随着电子商务平台和用户行为的不断演变,长期跟踪和评估模型的性能,以适应新的市场趋势和用户需求。

这些探索点可以帮助研究者和开发者进一步提升语言模型在电子商务领域的应用效果,提高用户体验,并推动相关技术的发展。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点:

  1. 问题提出:论文指出在电子商务场景中,提高语言模型(LMs)理解购买意图的能力对于它们在各种下游任务中的有效帮助至关重要。然而,现有的方法在从LMs中提取意图时存在困难,无法生成在现实世界电子商务中有意义的、以用户为中心的意图。
  2. INTENTIONQA基准:为了评估LMs在电子商务中理解购买意图的能力,作者提出了INTENTIONQA,这是一个双重任务的多项选择问答(MCQA)基准。它包含两个任务:IntentUnderstand(意图理解)和IntentUtilize(意图利用)。
  3. 数据集构建:INTENTIONQA包含4,360个经过精心策划的问题,涵盖三种难度级别。这些数据是通过一个自动化流程构建的,该流程使用FolkScope中的人类注释意图,并通过ASER知识图谱增强上下文信息,以确保在大型电子商务平台上的可扩展性。
  4. 任务定义
    • IntentUnderstand:要求LMs根据购买的产品对正确推断客户的购买意图。
    • IntentUtilize:要求LMs利用购买意图预测客户可能的额外购买行为。
  5. 实验与评估:作者对19种不同大小和方法的语言模型进行了广泛的实验,结果显示现有模型在某些场景下,如准确理解产品和意图、联合推理产品和意图等方面,仍然存在挑战,并远远落后于人类的表现。
  6. 人类评估:通过人类评估验证了INTENTIONQA基准的高质量和低误报率。
  7. 研究贡献:论文的研究不仅提供了一个评估工具来理解语言模型在电子商务中的购买意图理解能力,而且揭示了现有模型的局限性,并为未来的研究和模型改进提供了方向。
  8. 资源公开:作者承诺将代码和数据公开,以便社区可以进一步研究和开发。
  9. 结论与展望:论文总结了INTENTIONQA的贡献,并指出了当前语言模型在电子商务意图理解任务中的局限性,同时对未来的研究方向提出了展望。

这篇论文通过提出INTENTIONQA基准,为评估和提高语言模型在电子商务领域的购买意图理解能力提供了一个重要的工具和研究方向。


0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x