FedMoE:数据级个性化与混合专家,助力模型异构个性化联邦学习

近年来,大型语言模型(LLM)的快速发展,如 ChatGPT 和 AIGC,让人们看到了人工智能的巨大潜力。然而,为了训练这些模型,需要收集海量数据,这引发了人们对数据隐私的担忧。联邦学习 (FL) 应运而生,它是一种分布式机器学习范式,允许多个客户端在不共享数据的情况下协作训练共享模型,有效地保护了数据隐私。

传统的联邦学习算法,例如 FedAvg,要求所有客户端和服务器都使用相同结构的模型,即模型同质性。然而,现实世界中的数据和模型往往存在异构性,这给传统的联邦学习算法带来了挑战。例如,来自不同客户端的去中心化数据通常是非独立且相同分布的(Non-IID),即数据或统计异质性。此外,客户端可能拥有不同的系统配置和计算能力,即系统异构性。更重要的是,不同机构或企业可能拥有不同的私有模型库,即模型异构性,他们希望在不暴露模型结构的情况下进行协作训练。

为了应对这些挑战,模型异构个性化联邦学习 (MHPFL) 应运而生。MHPFL 允许客户端训练个性化和异构的局部模型,以适应本地数据分布、系统资源和模型结构,为联邦学习开辟了新的道路。

现有的 MHPFL 方法主要分为三个分支:基于知识蒸馏的 MHPFL,基于模型混搭的 MHPFL,以及基于互学习的 MHPFL。然而,这些方法都存在一些局限性。例如,基于知识蒸馏的方法需要额外的公共数据集,这在实际应用中难以获得。基于模型混搭的方法只共享同质部分,可能导致性能瓶颈和模型结构暴露。基于互学习的方法则会增加客户端的计算负担。

为了解决这些问题,本文提出了一种新的模型异构个性化 Fed 学习算法——FedMoE。FedMoE 借鉴了混合专家 (MoE) 的思想,为每个客户端的本地异构大型模型分配一个共享的同构小特征提取器和一个本地门控网络。

FedMoE 的工作原理

FedMoE 的核心思想是将本地异构模型的特征提取器视为个性化特征提取的局部专家,而共享的同构小特征提取器视为广义特征提取的全局专家。本地门控网络则根据每个数据样本的特征,为这两个专家提取的特征生成个性化权重。这三个模型共同构成了一个局部异构 MoE。

具体来说,FedMoE 的工作流程如下:

  1. 局部训练: 每个客户端使用共享的同构小特征提取器和本地异构大型特征提取器,以及一个本地门控网络,构建一个局部 MoE。在训练过程中,门控网络根据每个数据样本的特征,为两个专家提取的特征生成个性化权重。然后,将这两个专家的特征进行加权混合,并由本地异构模型的预测头进行处理,生成个性化预测信息。
  2. 模型聚合: 将经过训练的局部同构小特征提取器发送到服务器,通过聚合方式进行跨客户端信息融合。

FedMoE 的优势:

  • 数据级个性化: FedMoE 通过门控网络为每个数据样本生成个性化权重,实现了更细粒度的个性化,有效地适应了不同客户端的非 IID 数据分布。
  • 模型异构性: FedMoE 允许客户端使用不同的模型结构,支持模型异构性。
  • 隐私保护: FedMoE 只共享同构的小特征提取器,保护了本地异构模型和数据的隐私。
  • 高效性: FedMoE 采用轻量级的门控网络,降低了计算成本。同时,MoE 中的三个模型同步更新,节省了训练时间。

实验结果

本文在 CIFAR-10 和 CIFAR-100 数据集上进行了大量实验,结果表明:

  • FedMoE 的模型性能显著优于现有的 state-of-the-art MHPFL 算法,在模型同质性和模型异构性场景下均取得了最佳结果。
  • FedMoE 的计算成本较低,通信成本可接受。

总结

FedMoE 是一种新颖的模型异构个性化 Fed 学习算法,它通过数据级个性化和混合专家机制,有效地解决了模型异构个性化联邦学习中的数据异构性、系统异构性和模型异构性问题。FedMoE 具有更高的模型性能、更低的计算成本和可接受的通信成本,为联邦学习在实际应用中的推广提供了新的思路。


0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x