探索的长期价值:衡量、发现和算法 2024-06-07 作者 C3P00 推荐系统已经成为人们日常生活中不可或缺的一部分,为用户提供推荐平台上的相关内容。许多系统被训练来预测和利用用户对推荐的即时反应,例如点击、停留时间和购买,在个性化方面取得了巨大成功(Sarwar 等人,2001;Koren 等人,2009;Covington 等人,2016;Zhang 等人,2019)。然而,这些基于利用的系统被称为会受到闭环反馈效应的影响(Jiang 等人,2019;Jadidinejad 等人,2020),在这种效应中,推荐系统和用户相互强化彼此的选择。用户被推荐的项目所吸引,只对所选项目提供反馈;系统利用有偏差的反馈数据进行训练,进一步巩固和强化用户配置文件,使其更倾向于之前与之交互的内容。结果,用户越来越局限于更狭窄的内容集,而平台上的许多内容仍然未被发现。 探索是打破这种反馈循环的关键。通过向用户展示不太确定的内容(Jadidinejad 等人,2020;Chen 等人,2021),它主动获取有关未知用户内容对的未来学习信号,以填补系统中的知识空白。这样做,探索可以向用户介绍新颖的内容,我们称之为用户探索(Chen 等人,2021;Song 等人,2022;Schnabel 等人,2018);它还可以使更多新鲜和尾部内容(以及内容提供者)在平台上可发现,我们称之为项目探索(Chen,2021;Aharon 等人,2015)。我们将重点讨论项目探索。 虽然有效的探索技术(Li 等人,2010;Agarwal 等人,2014;Silver 等人,2016;Chen 等人,2019)在老虎机和强化学习文献中得到了积极的研究,但在现实世界工业系统中部署它们已被证明很困难。主要挑战在于衡量(Chen,2021)探索的确切益处,这将作为从纯粹基于利用的系统转向基于探索的系统的具体和可衡量的证据。虽然探索技术如上限置信区间(Auer 等人,2002;Chu 等人,2011)和汤普森采样(Thompson,1933;Chapelle 和 Li,2011;Riquelme 等人,2018)在数学上已被证明比贪婪方法具有更好的遗憾,但尚不清楚这种益处是否会转化为具有噪声和延迟反馈以及不可测试的建模假设的工业推荐设置。 衡量探索益处存在三个主要挑战。第一个是待检查的指标,因为探索的益处需要很长时间才能显现,并且难以在常规的 A/B 测试中捕捉到。同时,推荐不太确定的内容通常会导致短期用户参与指标的损失。因此,确定一些可以作为探索与长期用户体验之间桥梁的中间实体至关重要。 我们专注于通过探索对系统中内容语料库的中间影响来研究探索的价值。我们系统地研究了探索如何扩大内容语料库,进而转化为长期用户参与度提升。第二个挑战是实验设计,正如我们将在后面解释的那样,常用的用户分流 A/B 测试(Kohavi 等人,2020)无法捕捉到探索对内容语料库的益处,因为控制组和实验组之间存在信息泄漏。我们引入了一个新的实验框架来衡量探索对内容语料库变化的影响。最后一个挑战在于设计可以在现实世界工业规模环境中使用的基于探索的系统。为此,我们采用了一种可扩展的探索算法,即神经线性老虎机(NLB)(Riquelme 等人,2018),以充分释放和检验探索的潜在益处。NLB 在从深度神经网络学习的表示之上执行线性回归,作为上下文特征来估计不确定性。它很好地融入现代基于深度学习的推荐系统(Covington 等人,2016),同时在计算准确的不确定性估计方面保持简单。 总之,我们做出了以下贡献: 用于研究探索益处的指标: 我们揭示了探索的测量挑战,并提供了第一个全面研究,系统地量化了推荐系统中探索的价值。我们的方法利用内容语料库作为连接探索和用户体验的重要中间量,并定义语料库指标来衡量不同探索处理的有效性。 用于衡量探索价值的实验框架: 为了防止控制组和处理组之间的语料库泄漏,我们提出了一种新的用户-语料库-协同分流实验框架,以无偏的方式衡量探索对所提议的语料库指标的影响。 通过神经线性老虎机设计基于探索的系统: 虽然 NLB 算法已在理论上得到研究,但我们讨论了将其集成到工业推荐系统中的挑战,并详细说明了我们的实现。我们通过大规模现场实验进一步验证了它的成功,并指出了构建基于探索的推荐系统的令人兴奋的未来方向。 通过大规模现场实验进行验证和发现: 我们通过在大型短视频推荐平台上进行广泛的现场实验来验证实验设计。我们展示了探索如何扩大内容语料库,并最终将语料库改进与长期用户体验联系起来。 探索的长期价值:扩大语料库 在本节中,我们研究了通过语料库变化来研究探索的益处。总之,在不确定区域进行探索会增加新鲜和尾部内容的曝光度和可发现性,并改变整体语料库分布,进而改善长期用户体验。我们首先定义语料库指标,即可发现语料库;然后介绍一个新的用户-语料库-协同分流实验框架来衡量探索对可发现语料库的益处。最后,我们展示了一项长期研究,展示了语料库变化对用户体验的影响。 语料库指标 基于利用的系统会导致高度倾斜的语料库分布,其中一小部分语料库占据了大量的用户交互,而其余语料库几乎没有被发现。我们提出了一种语料库指标,该指标捕捉了每个视频接收的交互次数中的语料库分布。为了避免由于内容本身的性能更好(即接收更多交互)而产生的任何混淆因素,仅仅是因为它从探索处理中获得了更多展示,我们使用探索后语料库性能来衡量探索效果。 具体来说,我们为内容设置了一个 X’ 的毕业门槛,即正向用户交互次数。换句话说,一旦内容收到超过 X’ 次的正向用户交互,它就不再有资格接受进一步的探索处理。此时,内容进入探索后阶段,需要靠自身生存。也就是说,探索处理用于引导冷启动内容,但内容的成功仍然主要取决于其自身质量以及在移除进入门槛后的受众相关性。鉴于此,我们正式定义了系统 π 的 Discoverable Corpus @X,Y. ✅ Discoverable Corpus @X,Y = (在探索后时间段 Y 内收到超过 X 次正向用户交互的内容数量) / (在探索后时间段 Y 内收到超过 X 次正向用户交互的总内容数量) 该指标捕捉了从尾部到头部的一系列内容的数量变化。对于较小的 X. 它衡量了尾部内容的性能,而对于较大的 X,它衡量了头部和热门内容的增长。理想情况下,系统的探索能力越强,Discoverable Corpus @X,Y 在各种 X 区间内的值就越大,同时保持相对中立的用户体验作为保障。用于评估的时间窗口,即 Y,规定了允许新探索的语料库增长的时段。在我们的实验中,我们使用 7 天窗口来捕捉短期语料库增长,以及 3 个月窗口来捕捉长期增长。✅ 用户-语料库-协同分流实验 传统的用户分流 A/B 测试(Imbens 和 Rubin,2015;Kohavi 等人,2020)提供了一个强大的工具来衡量任何推荐更改对用户方面的影响。在用户分流 A/B 测试中,我们将用户随机分配到控制组和处理组,让他们接受相应的处理,并比较两组之间的用户端指标,例如点击次数、停留时间、满意度调查响应。 然而,这些实验无法捕捉到任何语料库变化,例如由于探索处理而导致的内容获得更多展示或用户交互的数量。由于两组共享相同的语料库,因此任何对语料库的处理效果都会在组之间泄漏。 因此,我们提出了用户-语料库-协同分流 A/B 测试,它是多重随机化设计 (MRD)(Bajari 等人,2021)的一种实例,通过设计特定的分配矩阵来实现。特别是,它除了随机将 x% 的用户按比例分配到控制组和实验组之外,还将 x% 的语料库随机分配到控制组和处理组。如图 2 所示,控制组的用户只接收来自控制组语料库的推荐,处理组的用户也是如此。与原始用户分流实验相比,语料库的随机分割可以防止处理效果泄漏,并允许衡量处理效果对基于语料库的指标的影响。我们将用户和语料库保持比例,例如 5% 的用户探索 5% 的语料库,因此探索处理的有效性与 100% 的用户探索整个语料库时的完整部署一致。否则,可以想象,使用 5% 的用户流量来探索整个语料库 (100%) 将导致语料库分布的微小变化。 探索增加了可发现语料库 设置: 我们进行了一项用户-语料库-协同分流现场实验,其中 1) 控制组运行基于利用的系统,如图 1 所示,以填补平台上的所有位置;2) 处理组运行一个简单的基于探索的系统,该系统专门为新鲜和尾部内容保留专用位置,同时使用与控制组相同的系统填充其他位置。探索系统使用一个提名器,根据候选内容与历史用户消费的相似性来提名新鲜和尾部候选内容。提名的候选内容由与控制组相同的排名系统进行排名。 我们首先通过衡量 Discoverable Corpus @X0,7 (7 天时间段) 来检查探索系统的短期益处。 如图 3 所示,我们观察到 Discoverable Corpus @100,7 (左) 和 Discoverable Corpus @1000,7 (右) 的数量显著增加(即收到超过 X0=100 和 X0=1000 次探索后正向交互的内容数量)。这验证了基于探索的系统在短期内有效地提升了内容获得早期成功的数量。此外,控制组和处理组之间的差距随着时间的推移而不断扩大,我们发现这是由于处理组中的内容提供者比控制组中的内容提供者创建了更多可发现的内容。虽然由于篇幅有限,我们不会深入探讨探索如何使内容提供者受益,但这是一个值得在未来研究中探讨的主题。 虽然在短期内使内容获得早期成功很重要,但这并不一定能保证语料库的持续长期增长。理想情况下,探索系统应该能够识别出有潜力的高质量内容,这些内容在最初的引导后能够传播开来。为了评估内容的长期探索后增长,我们分析了 Discoverable Corpus @Xl,3 (3 个月时间段) 在不同的 Xl 区间内的变化。如表 1 所示,探索处理始终提高了 Discoverable Corpus @Xl,3 在不同 Xl 区间内的值。值得注意的是,增长的百分比在不同的 Xl 区间内保持着显著的一致性,大约在 50% 左右。 扩大可发现语料库的长期价值 以上讨论确定了探索按比例在不同的交互区间内扩大可发现语料库,并发现“未来”的头部和尾部内容。在本节中,我们将通过将可发现语料库大小的变化与长期用户体验联系起来,来完成论点的闭环。为了量化用户满意度,我们使用一个指标来统计平台上每天具有满意交互(基于满意度调查预测)的活跃用户数量,在整篇文章中,我们将此指标称为满意的每日活跃用户。 这项研究的核心是允许每个用户访问一个缩减的固定语料库 C’⊂C. 并观察满意的每日活跃用户数量的变化。为了消除任何混淆因素,即确保在通过缩减的语料库过滤提名候选内容后,第二阶段(排名)中评分的候选内容数量相同,我们相应地增加了第一阶段的提名数量。✅ 我们进行了 4 周的消融研究,控制组和处理组都运行与图 1 中描述的相同的多分阶段推荐系统。每组接收 5% 的总流量。控制组接收提名器输出的所有候选内容,而处理组使用附录 B 中算法 2 中详细介绍的语料库消融过程,随机从平台中过滤掉 x% 的语料库。 研究结果如图 5 所示。从左图可以看出,满意的每日活跃用户数量在不同的消融规模下都出现了显著下降。此外,消融的负面影响随着时间的推移而增加,这表明它对长期用户满意度具有持久性的负面影响。有趣的是,右图显示了可发现语料库大小变化与满意的每日活跃用户数量之间单调的关系(大致线性),由此我们推测,增加可发现语料库大小将导致积极的用户体验。 然而,值得一提的是,这种线性关系可能只在特定范围的语料库大小内成立。此外,当可发现语料库达到一定规模时,扩大语料库可能会产生饱和效应。确定这种关系的确切性质是未来研究的一个令人兴奋的方向,但超出了本文的范围。总之,探索增加了可发现语料库的大小,这进一步转化为长期用户满意度的提升。
推荐系统已经成为人们日常生活中不可或缺的一部分,为用户提供推荐平台上的相关内容。许多系统被训练来预测和利用用户对推荐的即时反应,例如点击、停留时间和购买,在个性化方面取得了巨大成功(Sarwar 等人,2001;Koren 等人,2009;Covington 等人,2016;Zhang 等人,2019)。然而,这些基于利用的系统被称为会受到闭环反馈效应的影响(Jiang 等人,2019;Jadidinejad 等人,2020),在这种效应中,推荐系统和用户相互强化彼此的选择。用户被推荐的项目所吸引,只对所选项目提供反馈;系统利用有偏差的反馈数据进行训练,进一步巩固和强化用户配置文件,使其更倾向于之前与之交互的内容。结果,用户越来越局限于更狭窄的内容集,而平台上的许多内容仍然未被发现。
探索是打破这种反馈循环的关键。通过向用户展示不太确定的内容(Jadidinejad 等人,2020;Chen 等人,2021),它主动获取有关未知用户内容对的未来学习信号,以填补系统中的知识空白。这样做,探索可以向用户介绍新颖的内容,我们称之为用户探索(Chen 等人,2021;Song 等人,2022;Schnabel 等人,2018);它还可以使更多新鲜和尾部内容(以及内容提供者)在平台上可发现,我们称之为项目探索(Chen,2021;Aharon 等人,2015)。我们将重点讨论项目探索。
虽然有效的探索技术(Li 等人,2010;Agarwal 等人,2014;Silver 等人,2016;Chen 等人,2019)在老虎机和强化学习文献中得到了积极的研究,但在现实世界工业系统中部署它们已被证明很困难。主要挑战在于衡量(Chen,2021)探索的确切益处,这将作为从纯粹基于利用的系统转向基于探索的系统的具体和可衡量的证据。虽然探索技术如上限置信区间(Auer 等人,2002;Chu 等人,2011)和汤普森采样(Thompson,1933;Chapelle 和 Li,2011;Riquelme 等人,2018)在数学上已被证明比贪婪方法具有更好的遗憾,但尚不清楚这种益处是否会转化为具有噪声和延迟反馈以及不可测试的建模假设的工业推荐设置。
衡量探索益处存在三个主要挑战。第一个是待检查的指标,因为探索的益处需要很长时间才能显现,并且难以在常规的 A/B 测试中捕捉到。同时,推荐不太确定的内容通常会导致短期用户参与指标的损失。因此,确定一些可以作为探索与长期用户体验之间桥梁的中间实体至关重要。
我们专注于通过探索对系统中内容语料库的中间影响来研究探索的价值。我们系统地研究了探索如何扩大内容语料库,进而转化为长期用户参与度提升。第二个挑战是实验设计,正如我们将在后面解释的那样,常用的用户分流 A/B 测试(Kohavi 等人,2020)无法捕捉到探索对内容语料库的益处,因为控制组和实验组之间存在信息泄漏。我们引入了一个新的实验框架来衡量探索对内容语料库变化的影响。最后一个挑战在于设计可以在现实世界工业规模环境中使用的基于探索的系统。为此,我们采用了一种可扩展的探索算法,即神经线性老虎机(NLB)(Riquelme 等人,2018),以充分释放和检验探索的潜在益处。NLB 在从深度神经网络学习的表示之上执行线性回归,作为上下文特征来估计不确定性。它很好地融入现代基于深度学习的推荐系统(Covington 等人,2016),同时在计算准确的不确定性估计方面保持简单。
总之,我们做出了以下贡献:
探索的长期价值:扩大语料库
在本节中,我们研究了通过语料库变化来研究探索的益处。总之,在不确定区域进行探索会增加新鲜和尾部内容的曝光度和可发现性,并改变整体语料库分布,进而改善长期用户体验。我们首先定义语料库指标,即可发现语料库;然后介绍一个新的用户-语料库-协同分流实验框架来衡量探索对可发现语料库的益处。最后,我们展示了一项长期研究,展示了语料库变化对用户体验的影响。
语料库指标
基于利用的系统会导致高度倾斜的语料库分布,其中一小部分语料库占据了大量的用户交互,而其余语料库几乎没有被发现。我们提出了一种语料库指标,该指标捕捉了每个视频接收的交互次数中的语料库分布。为了避免由于内容本身的性能更好(即接收更多交互)而产生的任何混淆因素,仅仅是因为它从探索处理中获得了更多展示,我们使用探索后语料库性能来衡量探索效果。
具体来说,我们为内容设置了一个 X’ 的毕业门槛,即正向用户交互次数。换句话说,一旦内容收到超过 X’ 次的正向用户交互,它就不再有资格接受进一步的探索处理。此时,内容进入探索后阶段,需要靠自身生存。也就是说,探索处理用于引导冷启动内容,但内容的成功仍然主要取决于其自身质量以及在移除进入门槛后的受众相关性。鉴于此,我们正式定义了系统 π 的 Discoverable Corpus @X,Y. ✅
Discoverable Corpus @X,Y = (在探索后时间段 Y 内收到超过 X 次正向用户交互的内容数量) / (在探索后时间段 Y 内收到超过 X 次正向用户交互的总内容数量)
该指标捕捉了从尾部到头部的一系列内容的数量变化。对于较小的 X. 它衡量了尾部内容的性能,而对于较大的 X,它衡量了头部和热门内容的增长。理想情况下,系统的探索能力越强,Discoverable Corpus @X,Y 在各种 X 区间内的值就越大,同时保持相对中立的用户体验作为保障。用于评估的时间窗口,即 Y,规定了允许新探索的语料库增长的时段。在我们的实验中,我们使用 7 天窗口来捕捉短期语料库增长,以及 3 个月窗口来捕捉长期增长。✅
用户-语料库-协同分流实验
传统的用户分流 A/B 测试(Imbens 和 Rubin,2015;Kohavi 等人,2020)提供了一个强大的工具来衡量任何推荐更改对用户方面的影响。在用户分流 A/B 测试中,我们将用户随机分配到控制组和处理组,让他们接受相应的处理,并比较两组之间的用户端指标,例如点击次数、停留时间、满意度调查响应。
然而,这些实验无法捕捉到任何语料库变化,例如由于探索处理而导致的内容获得更多展示或用户交互的数量。由于两组共享相同的语料库,因此任何对语料库的处理效果都会在组之间泄漏。
因此,我们提出了用户-语料库-协同分流 A/B 测试,它是多重随机化设计 (MRD)(Bajari 等人,2021)的一种实例,通过设计特定的分配矩阵来实现。特别是,它除了随机将 x% 的用户按比例分配到控制组和实验组之外,还将 x% 的语料库随机分配到控制组和处理组。如图 2 所示,控制组的用户只接收来自控制组语料库的推荐,处理组的用户也是如此。与原始用户分流实验相比,语料库的随机分割可以防止处理效果泄漏,并允许衡量处理效果对基于语料库的指标的影响。我们将用户和语料库保持比例,例如 5% 的用户探索 5% 的语料库,因此探索处理的有效性与 100% 的用户探索整个语料库时的完整部署一致。否则,可以想象,使用 5% 的用户流量来探索整个语料库 (100%) 将导致语料库分布的微小变化。
探索增加了可发现语料库
设置:
我们进行了一项用户-语料库-协同分流现场实验,其中 1) 控制组运行基于利用的系统,如图 1 所示,以填补平台上的所有位置;2) 处理组运行一个简单的基于探索的系统,该系统专门为新鲜和尾部内容保留专用位置,同时使用与控制组相同的系统填充其他位置。探索系统使用一个提名器,根据候选内容与历史用户消费的相似性来提名新鲜和尾部候选内容。提名的候选内容由与控制组相同的排名系统进行排名。
我们首先通过衡量 Discoverable Corpus @X0,7 (7 天时间段) 来检查探索系统的短期益处。
如图 3 所示,我们观察到 Discoverable Corpus @100,7 (左) 和 Discoverable Corpus @1000,7 (右) 的数量显著增加(即收到超过 X0=100 和 X0=1000 次探索后正向交互的内容数量)。这验证了基于探索的系统在短期内有效地提升了内容获得早期成功的数量。此外,控制组和处理组之间的差距随着时间的推移而不断扩大,我们发现这是由于处理组中的内容提供者比控制组中的内容提供者创建了更多可发现的内容。虽然由于篇幅有限,我们不会深入探讨探索如何使内容提供者受益,但这是一个值得在未来研究中探讨的主题。
虽然在短期内使内容获得早期成功很重要,但这并不一定能保证语料库的持续长期增长。理想情况下,探索系统应该能够识别出有潜力的高质量内容,这些内容在最初的引导后能够传播开来。为了评估内容的长期探索后增长,我们分析了 Discoverable Corpus @Xl,3 (3 个月时间段) 在不同的 Xl 区间内的变化。如表 1 所示,探索处理始终提高了 Discoverable Corpus @Xl,3 在不同 Xl 区间内的值。值得注意的是,增长的百分比在不同的 Xl 区间内保持着显著的一致性,大约在 50% 左右。
扩大可发现语料库的长期价值
以上讨论确定了探索按比例在不同的交互区间内扩大可发现语料库,并发现“未来”的头部和尾部内容。在本节中,我们将通过将可发现语料库大小的变化与长期用户体验联系起来,来完成论点的闭环。为了量化用户满意度,我们使用一个指标来统计平台上每天具有满意交互(基于满意度调查预测)的活跃用户数量,在整篇文章中,我们将此指标称为满意的每日活跃用户。
这项研究的核心是允许每个用户访问一个缩减的固定语料库 C’⊂C. 并观察满意的每日活跃用户数量的变化。为了消除任何混淆因素,即确保在通过缩减的语料库过滤提名候选内容后,第二阶段(排名)中评分的候选内容数量相同,我们相应地增加了第一阶段的提名数量。✅
我们进行了 4 周的消融研究,控制组和处理组都运行与图 1 中描述的相同的多分阶段推荐系统。每组接收 5% 的总流量。控制组接收提名器输出的所有候选内容,而处理组使用附录 B 中算法 2 中详细介绍的语料库消融过程,随机从平台中过滤掉 x% 的语料库。
研究结果如图 5 所示。从左图可以看出,满意的每日活跃用户数量在不同的消融规模下都出现了显著下降。此外,消融的负面影响随着时间的推移而增加,这表明它对长期用户满意度具有持久性的负面影响。有趣的是,右图显示了可发现语料库大小变化与满意的每日活跃用户数量之间单调的关系(大致线性),由此我们推测,增加可发现语料库大小将导致积极的用户体验。
然而,值得一提的是,这种线性关系可能只在特定范围的语料库大小内成立。此外,当可发现语料库达到一定规模时,扩大语料库可能会产生饱和效应。确定这种关系的确切性质是未来研究的一个令人兴奋的方向,但超出了本文的范围。总之,探索增加了可发现语料库的大小,这进一步转化为长期用户满意度的提升。