🌍 提升人类偏好的对齐一般化能力：通过群体不变学习

引言

在当今人工智能助手的快速发展中，基于语言模型（LLM）的系统越来越依赖于人类反馈的强化学习（RLHF）来生成更符合人类偏好的响应。随着这些系统在各个领域的应用日益广泛，一致性表现的期待也日益增强。然而，现有的RLHF方法常常通过利用简单的快捷方式来快速获得高奖励，忽略了更具挑战性的样本。这种对简单样本的偏好，不仅影响了模型的训练稳定性，还削弱了其在新数据上的泛化能力。

为了解决这一问题，Zheng等（2024）提出了一种新颖的方法，通过群体不变学习来提升模型在不同数据组中的一致性表现。该方法旨在自动分类数据，最大化性能差异，从而优化模型在挑战性数据上的表现。这一创新方法不仅可以提高训练的稳定性，还可以显著增强模型的泛化能力。

🛠️ 方法概述

1. 现有RLHF方法的挑战

在RLHF过程中，模型通常需要通过人类偏好来学习如何生成更优质的响应。然而，现有的方法往往过于关注简单的高奖励数据，导致模型在面对具有挑战性的样本时表现不佳。这种现象不仅影响了模型在新样本上的表现，还可能导致模型陷入「奖励黑客」困境，即生成的文本虽然获得高奖励，但实际上毫无意义。Zheng等提出的群体不变学习方法则通过以下步骤来解决这一问题：

自动分类数据：该方法能够自动将数据划分为不同的组，特别是那些具有挑战性的数据组。
优化策略：通过最大化各组之间的性能差异来优化策略，从而提高模型在挑战性数据上的表现。
动态调整探索空间：根据各组的表现动态调整学习能力，防止模型过度优化于简单数据。

2. 群体不变学习的框架

在该框架中，Zheng等提出了群体不变约束（GIC），该约束旨在确保模型在不同数据组中表现一致。具体而言，模型不仅要最大化整体预期奖励，还要减少不同数据组之间的差异。通过这一方法，模型在学习过程中被鼓励从各个部分的数据中学习，包括那些更具挑战性的样本。

2.1 策略梯度

在每个时间步，模型根据当前的状态生成下一个动作，并接收奖励。通过优化策略以最大化奖励，Zheng等引入了基于群体不变的策略学习，确保模型在不同群体中的表现一致。

2.2 动态KL惩罚

KL散度惩罚在RLHF中起着重要的作用，确保模型的输出不会过度偏离初始的SFT模型。Zheng等提出了一种新的动态惩罚方法，根据数据的不同表现动态调整惩罚强度，以鼓励模型在困难数据上进行探索。

📊 实验结果

为了验证所提出方法的有效性，Zheng等进行了大量实验，结果显示该方法在多个基准测试中均优于传统的PPO（Proximal Policy Optimization）算法。

1. 内部分布数据评估

在内部分布的数据评估中，Zheng等的模型在与其他基线方法的比较中表现出色。结果表明，所提出的方法不仅能够提高模型的稳定性，还能够显著增强其在多个任务上的性能。

2. 外部分布数据评估

在外部分布数据评估中，Zheng等的方法同样表现优异，尤其是在处理与训练数据源不同的任务时，展现出了更强的泛化能力。实验结果显示，该方法在应对新颖和具有挑战性的任务时，能够有效减少「输」的比例。

📝 结论

Zheng等（2024）提出的群体不变学习方法为提升模型对齐人类偏好的能力提供了新的思路。通过自动分类数据并优化策略，该方法显著增强了模型在不同数据组中的表现一致性和泛化能力。实验结果显示，该方法在多种任务中均优于传统的强化学习方法，为未来的研究提供了有力的支持。

📚 参考文献

Zheng, R. , Shen, W., Hua, Y., Lai, W., Dou, S., Zhou, Y., Xi, Z., Wang, X., Huang, H., Gui, T., Zhang, Q., Huang, X. (2024). Improving Generalization of Alignment with Human Preferences through Group Invariant Learning. ICLR 2024.✅
Ouyang, L. , et al. (2022). Training language models to follow instructions with human feedback.✅
Bai, Y. , et al. (2022). Training a Helpful and Harmless Assistant.✅
Skalse, R. , et al. (2022). Reward Hacking in Reinforcement Learning.✅
Arjovsky, M. , et al. (2019). Invariant Risk Minimization.✅

引言