Ding, W. , Wang, W., Kwok, S. H. D., Liu, M., Fang, T., Bai, J., … & Song, Y. (2024). INTENTIONQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce. arXiv preprint arXiv:2406.10173.✅
Yu, J. , Zhang, Y., Tan, C., & Song, Y. (2023). Folkscope: Distilling Purchase Intentions from Large Language Models for E-commerce. arXiv preprint arXiv:2303.10677.✅
Zhang, Y. , Wang, W., Song, Y., & Kwok, S. H. D. (2022a). ASER: A Large-Scale Eventuality Knowledge Graph. arXiv preprint arXiv:2206.03901.✅
Zhou, Y. , Zhang, Y., Yu, J., & Song, Y. (2024). Towards Human-Centric Purchase Intention Comprehension: A Critical Analysis of Large Language Models. arXiv preprint arXiv:2403.06981.✅
Xu, Y. , Zhang, Y., Yu, J., & Song, Y. (2024). MIND: A Multimodal Intention Knowledge Base for E-commerce. arXiv preprint arXiv:2404.05261.✅
Xu, Y. , Wang, W., Song, Y., & Kwok, S. H. D. (2021). Towards Automatic Threshold Tuning for Knowledge Base Completion. arXiv preprint arXiv:2104.07632.✅
近年来,人工智能(AI)技术飞速发展,大型语言模型(LLM)在各个领域展现出惊人的能力。在电商领域,LLM 能够帮助我们进行商品推荐、回答用户问题,甚至理解用户的购物意图。但一个关键问题是:LLM 真的能够理解用户的购物意图吗?它们是否能够像人类一样,从用户的行为中推断出背后的深层含义?
为了回答这个问题,香港科技大学的研究人员开发了一个名为 INTENTIONQA 的基准测试集,专门用于评估 LLM 在电商场景下理解用户购物意图的能力。INTENTIONQA 包含 4,360 道精心设计的问答题,涵盖了三个难度级别,并通过自动化流程确保其可扩展性,使其能够应用于大型电商平台。
INTENTIONQA:双任务多选问答
INTENTIONQA 基准测试集包含两个任务:意图理解 和 意图利用。这两个任务分别评估 LLM 理解和利用用户购物意图的能力。
意图理解 任务要求 LLM 根据用户购买的商品推断出用户的购物意图。例如,用户购买了耳机和耳垫,LLM 需要从多个选项中选择最有可能的购物意图,例如“为了获得更舒适的佩戴体验”或“为了增强音质”。
意图利用 任务则要求 LLM 根据用户意图和已购买的商品,预测用户最有可能购买的额外商品。例如,用户购买了耳机,并且意图是“为了获得更舒适的佩戴体验”,LLM 需要从多个选项中选择最有可能的额外商品,例如“头带垫”或“耳罩”。
构建 INTENTIONQA:自动化流程和人工评估
INTENTIONQA 的构建过程主要依赖于自动化流程,并结合人工评估来确保其质量。
自动化流程 利用了现有的意图知识库 FolkScope 和事件知识图 ASER。FolkScope 收集了用户购买商品的行为和对应的购物意图,而 ASER 则包含了大量常见的事件和事件之间的关系。
研究人员首先将 FolkScope 中的意图和商品映射到 ASER 中的事件节点,并计算它们之间的相似度。然后,根据相似度,自动生成问答题,并为每个问题提供三个干扰选项。
人工评估 则用于验证自动化流程的有效性和 INTENTIONQA 的质量。研究人员招募了人工标注员,对生成的问答题进行评估,包括判断答案的正确性和干扰选项的质量。
实验结果:LLM 的挑战和机遇
研究人员对 19 个不同类型的 LLM 进行了评估,包括预训练模型、注入常识知识的模型、开源模型以及使用 API 的模型。结果表明,LLM 在 INTENTIONQA 上取得了比随机猜测更好的成绩,但与人类的表现相比仍有较大差距。
实验结果表明:
研究人员还发现, 通过在外部资源上进行微调,可以显著提升 LLM 的意图理解能力。例如,在包含商品图片的意图知识库 MIND 上进行微调,可以使 LLM 在意图理解任务上的表现接近 GPT-4。
未来展望:意图感知的电商服务
INTENTIONQA 的出现为评估 LLM 在电商场景下理解用户意图的能力提供了一个新的基准测试集。研究结果表明,LLM 在意图理解方面仍面临着挑战,但同时,也展现出了巨大的潜力。
未来,研究人员将继续探索如何提升 LLM 的意图理解能力,并将其应用于电商服务中,例如:
随着 LLM 技术的不断发展,我们相信,意图感知的电商服务将成为未来电商发展的重要方向。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为INTENTIONQA的评估基准,旨在解决语言模型(LMs)在电子商务场景中理解购买意图的能力问题。具体来说,论文指出以往的方法在从语言模型中提取购买意图时,往往无法生成有意义且以用户为中心的意图,这些意图在现实世界的电子商务环境中具有应用价值。因此,论文的主要贡献是:
总的来说,论文的目标是通过INTENTIONQA基准,推动语言模型在电子商务服务中更好地理解和利用购买意图,从而提升产品推荐等相关下游任务的效果。
Q: 有哪些相关研究?
A: 在这篇论文中,提到了以下几类相关研究:
这些研究为构建INTENTIONQA基准提供了理论和技术基础,并帮助评估和改进语言模型在电子商务环境中的购买意图理解能力。
Q: 论文如何解决这个问题?
A: 论文通过以下几个关键步骤来解决语言模型在电子商务中理解购买意图的问题:
IntentUnderstand
(意图理解)和IntentUtilize
(意图利用)。通过这些步骤,论文不仅提出了一个系统的解决方案来评估和提高语言模型在电子商务中的购买意图理解能力,而且还通过实验和分析揭示了现有模型的局限性,并为未来的研究提供了方向。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来评估和分析语言模型在理解购买意图方面的能力:
这些实验提供了对语言模型在电子商务购买意图理解任务上能力的深入理解,并揭示了它们在某些场景中与人类表现之间的差距。通过这些实验结果,论文强调了现有模型的局限性,并为未来的研究和模型改进提供了有价值的见解。
Q: 有什么可以进一步探索的点?
A: 根据论文内容,以下是一些可以进一步探索的点:
这些探索点可以帮助研究者和开发者进一步提升语言模型在电子商务领域的应用效果,提高用户体验,并推动相关技术的发展。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以概括为以下几个要点:
这篇论文通过提出INTENTIONQA基准,为评估和提高语言模型在电子商务领域的购买意图理解能力提供了一个重要的工具和研究方向。