服务器的职责是优化每个客户端 u 的聚合权重 wu,从而为每个客户端实现个性化的全局聚合。理想情况下,我们希望 wu 在等式 (3) 中的损失函数下得到完美优化。然而,由于联邦环境的限制,这是不切实际的。服务器只能访问每个客户端上传的本地模型 Qu,而不知道每个客户端的用户信息嵌入 pu 和本地数据 Du,因此难以直接在服务器端计算 Lu。为了合理地感知每个客户端的初始贡献,我们利用 wu 和本地数据相对数量 p 之间的均方误差作为 Lu 的代理,度量每个客户端的优化水平,这受到最近工作的启发。因此,在服务器端优化 wu 的损失函数被改写为等式 (4)。
本地训练
每个客户端 u 的任务是利用本地数据来优化关于私有用户嵌入 pu 和个性化项目嵌入 Qu 的本地经验损失 Lu。私有用户嵌入 pu 保留在本地,而计算出的项目嵌入 Qu 被上传到服务器进行全局聚合。为了从训练过程中的交互中挖掘信息,我们将 Lu 指定为二元交叉熵 (BCE) 损失,这是一个为推荐系统精心设计的目标函数。BCE 损失的目标函数在等式 (7) 中定义。
本地推理
在本地推理阶段,客户端 u 首先从服务器下载聚合的项目嵌入 Qg。值得注意的是,在联邦视觉领域,它可以直接使用全局参数 Qg 执行本地推理。然而,在 FR 任务中,客户端特定的用户嵌入 pu 的存在导致前一轮 t-1 的用户嵌入 pu^t-1 和本轮 t 的聚合项目嵌入 Qg^t 之间存在空间错位问题。为了实现空间对齐,我们采用了一种简单而有效的方法,即插值法,以缩小本地特定参数 pu 和全局参数 Qg 之间的差距。通过引入 ρ,我们平衡了本地参数 Qu 和全局聚合参数 Qg 的权重,从而在嵌入空间中将项目与用户对齐。
引言
联邦推荐 (FR) 作为一种新兴的设备端学习范式,在学术界和工业界都引起了广泛的关注。现有的联邦推荐系统通常采用不同的协同过滤模型作为本地模型,并使用各种聚合函数来获得全局推荐器,遵循基本的联邦学习 (FL) 原则。例如,一项开创性的工作是 FCF,它通过执行本地更新和使用联邦优化进行全局聚合来适应中心化的矩阵分解。此外,FedNCF 将矩阵分解的线性与深度嵌入技术的非线性相结合,建立在 FCF 的基础之上。这些基于嵌入的联邦推荐模型有效地平衡了推荐准确性和隐私保护。
挑战:嵌入偏差问题
FR 的成功归功于它们能够通过聚合函数来体现数据局部性,同时跨多个客户端实现知识的全局性。这些函数在联邦优化过程中起着至关重要的作用,决定了从每个客户端获取哪些知识以及将这些知识整合到全局模型的程度。其中最著名的方法是 FedAvg,它为拥有更多数据样本的客户端分配更大的权重,以实现加权聚合,从而优化全局模型。后续工作旨在改进聚合策略,以解决联邦环境中的数据异质性挑战。例如,PerFedRec 首先利用聚类来识别具有相似数据分布的客户端,然后进行组内聚合以实现自适应。此外,FedAtt 通过计算本地模型和全局模型之间的相似性来分配不同客户端的注意力系数,从而实现个性化的联邦优化。以上聚合方法通过考虑细粒度的相似性有效地缓解了异质性挑战。
然而,FR 中使用的这些聚合函数主要受到联邦视觉领域中使用的函数的启发,例如加权聚合、聚类聚合和注意力聚合。所有这些本质上都基于相似性假设,即相似的客户端被分配更多权重,而不同的客户端被分配相对较小的权重。尽管取得了令人满意的性能,但我们认为,直接从联邦视觉领域采用现成的聚合函数可能不适合 FR 任务,因为 FR 任务天生就表现出显著的异质性,并且每个客户端都高度需要个性化偏好。
问题根源:模型架构差异
这种研究差距的主要原因反映在模型架构的差异上。与联邦视觉模型(例如卷积神经网络)不同,联邦视觉模型通常具有深度网络结构(又称结构化参数),联邦推荐模型通常通过使用一对一的项目嵌入表来区分自身。由于不同的客户端可能涉及不同的交互项目子集,导致每个客户端的嵌入表中训练了不同的行。当仅依靠相似性聚合时,会导致 FR 中独特的嵌入偏差问题,即训练的嵌入(蓝色)持续改进,而未训练的嵌入(灰色)在聚合过程中保持不变甚至恶化,如图 1(a)所示。因此,仅通过相似性聚合来预测本地设备上的未交互项目是一个巨大的挑战。
解决方案:复合聚合机制
为了解决嵌入偏差问题,本文提出了一种针对 FR 模型的复合聚合机制,它不仅聚合相似的客户端,还聚合互补的客户端。这种机制可以增强已经训练的嵌入,并更新未训练的嵌入,从而增强在边缘设备上预测未来项目的能力,如图 1(b)所示。此外,我们将聚合过程公式化为一个统一的优化算法,以共同学习相似性和互补性。在多个真实世界数据集上的大量实验表明,我们的模型始终优于几种最先进的方法。
模型架构:FedCA
FedCA 模型采用了一种统一的学习框架,该框架针对 FR 任务,优化每个客户端的个性化本地参数 {pu, Qu} 和聚合权重向量 {wu}。该框架受到相似性和互补性的联合约束的影响。
服务器聚合
服务器的职责是优化每个客户端 u 的聚合权重 wu,从而为每个客户端实现个性化的全局聚合。理想情况下,我们希望 wu 在等式 (3) 中的损失函数下得到完美优化。然而,由于联邦环境的限制,这是不切实际的。服务器只能访问每个客户端上传的本地模型 Qu,而不知道每个客户端的用户信息嵌入 pu 和本地数据 Du,因此难以直接在服务器端计算 Lu。为了合理地感知每个客户端的初始贡献,我们利用 wu 和本地数据相对数量 p 之间的均方误差作为 Lu 的代理,度量每个客户端的优化水平,这受到最近工作的启发。因此,在服务器端优化 wu 的损失函数被改写为等式 (4)。
本地训练
每个客户端 u 的任务是利用本地数据来优化关于私有用户嵌入 pu 和个性化项目嵌入 Qu 的本地经验损失 Lu。私有用户嵌入 pu 保留在本地,而计算出的项目嵌入 Qu 被上传到服务器进行全局聚合。为了从训练过程中的交互中挖掘信息,我们将 Lu 指定为二元交叉熵 (BCE) 损失,这是一个为推荐系统精心设计的目标函数。BCE 损失的目标函数在等式 (7) 中定义。
本地推理
在本地推理阶段,客户端 u 首先从服务器下载聚合的项目嵌入 Qg。值得注意的是,在联邦视觉领域,它可以直接使用全局参数 Qg 执行本地推理。然而,在 FR 任务中,客户端特定的用户嵌入 pu 的存在导致前一轮 t-1 的用户嵌入 pu^t-1 和本轮 t 的聚合项目嵌入 Qg^t 之间存在空间错位问题。为了实现空间对齐,我们采用了一种简单而有效的方法,即插值法,以缩小本地特定参数 pu 和全局参数 Qg 之间的差距。通过引入 ρ,我们平衡了本地参数 Qu 和全局聚合参数 Qg 的权重,从而在嵌入空间中将项目与用户对齐。
实验结果
实验结果表明,FedCA 在四个基准数据集上始终优于基线模型,表明 FedCA 比仅使用相似性聚合更适合 FR 任务中的嵌入表聚合。此外,FedCA 在不同的训练数据稀疏性水平下也表现出鲁棒性,表明 FedCA 在训练数据有限的情况下仍然可以取得良好的泛化性能。
结论
本文首先重新思考了联邦视觉和 FR 任务之间的根本差异。具体而言,联邦视觉领域主要利用结构化参数(例如卷积神经网络)进行联邦优化,而 FR 任务主要使用一对一的项目嵌入表进行个性化推荐。这种关键差异使得从联邦视觉领域借用的基于相似性的聚合方法无法有效地聚合嵌入表,从而导致嵌入偏差问题。为了解决上述挑战,本文提出了一种针对 FR 任务的复合聚合机制。具体而言,通过在一个统一的优化框架内结合模型相似性和数据互补性,我们的方法增强了客户端已经交互过的项目的训练嵌入,并优化了客户端尚未交互过的项目的未训练嵌入。这使得能够有效地预测未来项目。此外,我们还探讨了近端项在 FR 任务中对个性化偏好的无效性,并提出了一种插值方法来缓解 FR 中的空间错位问题。
未来方向
本研究专门为 FR 任务提出了一种很有前景的复合聚合框架。它是一个与模型无关的即插即用模块,可以无缝集成到主流 FR 模型中。然而,在本研究中,我们需要手动调整相似性和互补性的权重分配。这些限制可以通过在未来的研究中使用自动机器学习技术来自适应地学习权重分配来缓解。此外,探索更适合 FR 任务的模型相似性和数据互补性机制也是一个很有前景的研究方向。