利用Softmax-DPO优化推荐系统的论文综述

摘要:推荐系统是根据用户的偏好数据预测个性化的排名。近年来,随着语言模型(LMs)的兴起,基于LM的推荐系统得到了广泛研究。然而,现有的LM-based推荐系统往往未能充分利用偏好数据,并未针对个性化排序任务进行优化,限制了其性能。本文针对这一问题,提出了一种名为Softmax-DPO(S-DPO)的优化方法,将排名信息直接融入LM中,帮助区分用户偏好的物品。S-DPO通过使用多个负样本构建偏好数据,并针对LM-based推荐系统设计了一种新的DPO损失函数,结合了Softmax采样策略。实验证明,S-DPO在三个真实世界数据集上的表现优于其他基线模型,有效地模拟了用户的偏好,并提升了推荐性能。

引言:推荐系统旨在根据用户的偏好数据预测个性化的排名。近年来,随着语言模型(LMs)的发展,基于LM的推荐系统得到了广泛研究。LM-based推荐系统将用户的历史交互数据转化为语言提示,并通过在训练过程中优化语言模型来实现推荐。然而,现有的LM-based推荐系统并未充分利用偏好数据,并未针对个性化排序任务进行优化,从而限制了其性能。

本文的主要贡献是提出了一种名为Softmax-DPO(S-DPO)的优化方法,专门针对LM-based推荐系统进行了优化。S-DPO通过在偏好数据中引入多个负样本,并设计了一种新的DPO损失函数,将排名信息直接融入LM中。与现有的方法相比,S-DPO在准确建模用户偏好和提升推荐性能方面具有明显优势。

实验证明,S-DPO在三个真实世界数据集上表现出色。与传统推荐系统和其他LM-based推荐系统相比,S-DPO的命中率提高了11.10%至47.03%。这是因为S-DPO能够有效地区分用户喜欢和不喜欢的物品,充分利用了多个负样本的排名梯度。此外,S-DPO还成功解决了DPO训练中数据似然下降的问题,提高了模型的性能和稳定性。

综上所述,本文提出的S-DPO方法为LM-based推荐系统的优化提供了重要思路。通过将排名信息融入LM,并利用多个负样本,S-DPO能够更好地模拟用户的偏好,并提升推荐性能。这一方法在推荐系统领域具有重要的应用前景,同时也为其他领域的研究提供了有价值的启示。

关键词:推荐系统,语言模型,偏好数据,个性化排序,Softmax-DPO

0 0 投票数
Article Rating
订阅评论
提醒
1 评论
最多投票
最新 最旧
内联反馈
查看所有评论
1
0
希望看到您的想法,请您发表评论x