从偏好中学习最优优势函数并错误地将其视为奖励

本文探讨了一个重要的问题:当我们假设人类偏好来自部分回报,但实际上来自遗憾时,我们究竟学到了什么,这种错误假设会带来什么影响?这个问题对于理解强化学习中的人类反馈(RLHF)至关重要。让我们深入探讨这篇论文的主要内容。

1. 背景介绍

强化学习中的人类反馈(RLHF)是一种重要的技术,它通过学习人类偏好来优化AI系统的行为。传统上,研究人员假设人类偏好是基于轨迹片段的累积奖励(部分回报)来生成的。然而,最近的研究表明,这个假设可能存在问题。

Knox等人(2022)提出了一个替代模型,认为人类偏好是基于遗憾(或等价地,最优优势函数)而不是部分回报。这个新模型在直觉上更符合人类给出偏好的方式,而且在理论和实证分析上都显示出优势。

本文深入研究了当实际偏好来自遗憾模型,但算法却假设它们来自部分回报模型时会发生什么。这种错误假设的后果对于理解RLHF的成功至关重要。

2. 偏好模型

在深入讨论主要结果之前,我们先回顾一下两种关键的偏好模型:

2.1 部分回报模型

部分回报模型假设人类偏好是基于两个轨迹片段的累积奖励生成的。数学表达如下:

$P_{\Sigma r}(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\Sigma_{\sigma_1} r – \Sigma_{\sigma_2} r)$

其中 $\Sigma_{\sigma} r$ 表示片段 $\sigma$ 的累积奖励。

2.2 遗憾模型

遗憾模型假设偏好是基于每个片段与最优决策的偏差程度。对于确定性转移,单个转移的遗憾定义为:

$\text{regret}d(\tau_t|r) = V^_r(s^\sigma_t) – [r_t + V^_r(s^\sigma{t+1})]$

对于整个片段:

$\text{regret}d(\sigma|r) = V^_r(s^\sigma_0) – (\Sigma\sigma r + V^r(s^\sigma{|\sigma|}))$

为了处理随机转移,最终的遗憾定义为:

$\text{regret}(\sigma|r) = \sum_{t=0}^{|\sigma|-1} -A^*_r(s^\sigma_t, a^\sigma_t)$

遗憾偏好模型则表示为:

$P_{\text{regret}}(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\sum_{t=0}^{|\sigma_1|-1} A^r(\sigma{1,t}) – \sum_{t=0}^{|\sigma_2|-1} A^r(\sigma{2,t}))$

3. 从偏好中学习最优优势函数并将其误用为奖励

本文的核心问题是:当偏好实际上来自遗憾模型,但我们却假设它们来自部分回报模型时,会发生什么?

3.1 学习最优优势函数

首先,作者统一了两种偏好模型为一个通用形式:

$P_g(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\sum_{t=0}^{|\sigma_1|-1} g(\sigma_{1,t}) – \sum_{t=0}^{|\sigma_2|-1} g(\sigma_{2,t}))$

当偏好来自部分回报时, $g(\tau_t) = r(s^\sigma_t, a^\sigma_t, s^\sigma_{t+1})$。
当偏好来自遗憾时, $g(\tau_t) = A^_r(\sigma_t) = A^_r(s^\sigma_t, a^\sigma_t)$。

在遗憾情况下,我们可以直接学习最优优势函数 $\hat{A}^_r$,并通过贪婪方式使用它: $\arg\max_a \hat{A}^_r(s,a)$ 。这种方法不需要额外的策略改进步骤,也不需要显式表示或学习奖励函数。

3.2 将最优优势函数误用为奖励

接下来,作者考虑了两种情况:

使用无误差的 $A^r$ 作为奖励函数:$r{A^_r} = A^*_r$
使用近似的 $\hat{A}^r$ 作为奖励函数:$r{\hat{A}^_r} = \hat{A}^*_r$

这种误用的分析旨在解释为什么假设部分回报偏好模型的学习在实践中往往效果很好,尽管它作为人类偏好的描述性模型并不理想。

4. 主要发现

4.1 理想学习条件下的结果

在理想学习条件下(无近似误差),错误地假设部分回报偏好模型会导致一个高度塑造的奖励函数,但它保留了最优策略集。具体来说:

$A^*_r$ 作为奖励函数时,最优策略集保持不变: $\Pi^{r{A^_r}} = \Pi^*_r$
对于任何策略 $\pi$,有: $V^\pi_{r_{A^_r}}(s) = V^_r(s) – V^\pi_r(s) + C$ 其中 $C$ 是一个常数。

这意味着,尽管我们错误地将最优优势函数解释为奖励,但它仍然保留了原始MDP的最优行为。

4.2 近似条件下的结果

然而,在实际应用中,我们通常只能学到 $A^_r$ 的近似 $\hat{A}^_r$。在这种情况下:

在固定时域任务中,使用 $\hat{A}^*_r$ 作为奖励可能会导致次优行为。
在可变时域任务中,如果数据收集过程不经过特殊修改,使用 $\hat{A}^*_r$ 作为奖励可能会导致灾难性失败。
通过一种特殊的数据收集修改(如图3所示),可以在可变时域任务中使用 $\hat{A}^_r$ 作为奖励并获得还不错的性能,尽管仍不如直接使用 $\hat{A}^_r$。
作者识别了一些条件,这些条件可能会任意偏向奖励函数,鼓励或避免寻找终止状态。

5. 对大型语言模型微调的新解释

作者指出,许多用于微调最先进语言模型(如ChatGPT)的最新算法可以被视为学习最优优势函数并无意中将其视为奖励函数的一个实例。在多轮(即连续)设置中,这种新的框架消除了这些算法的一个任意假设:为连续任务学习的奖励函数被用于赌博设置,实际上将折扣因子 $\gamma$ 设为0。

6. 结论与启示

本研究揭示了为什么在实践中,假设部分回报偏好模型的学习往往效果很好,尽管它作为人类偏好的描述性模型并不理想。
在理想条件下,将最优优势函数误解为奖励不会改变最优策略集,这解释了这种方法的部分成功。
在近似条件下,这种误解可能导致性能下降,但通过特定的数据收集修改,可以在某些条件下获得还不错的结果。
对于大型语言模型的微调,本研究提供了一个新的解释框架,消除了一些先前方法中的任意假设。
这项研究强调了深入理解人类偏好模型的重要性,以及在应用RLHF时需要注意的潜在陷阱。

总的来说,这项研究为理解和改进RLHF方法提供了重要的理论洞察,对于未来的AI系统开发和优化具有重要意义。

参考文献

Knox, W. B., Hatgis-Kessell, S., Adalgeirsson, S. O., Booth, S., Dragan, A., Stone, P., & Niekum, S. (2024). Learning Optimal Advantage from Preferences and Mistaking It for Reward. In The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24).✅
Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems.✅
Knox, W. B., Stone, P., & Niekum, S. (2022). Reward (Mis)design for Autonomous Driving. arXiv preprint arXiv:2104.13906.✅

从偏好中学习最优优势函数并错误地将其视为奖励

1. 背景介绍

2. 偏好模型

2.1 部分回报模型

2.2 遗憾模型

3. 从偏好中学习最优优势函数并将其误用为奖励

3.1 学习最优优势函数

3.2 将最优优势函数误用为奖励

4. 主要发现

4.1 理想学习条件下的结果

4.2 近似条件下的结果

5. 对大型语言模型微调的新解释

6. 结论与启示

参考文献

评论

发表回复取消回复

更多文章

🧠 逻辑之迷:揭秘思维陷阱的奥秘

突破强化学习瓶颈：Group Relative Policy Optimization (GRPO) 的设计与实现

《深度探索：DeepSeek-R1 的算法之旅》

🌟 重新思考语言模型的幻觉：注意力引导的自我反思算法

🌟 探索语言模型的未来：层次自回归变换器的实现细节

从偏好中学习最优优势函数并错误地将其视为奖励

1. 背景介绍

2. 偏好模型

2.1 部分回报模型

2.2 遗憾模型

3. 从偏好中学习最优优势函数并将其误用为奖励

3.1 学习最优优势函数

3.2 将最优优势函数误用为奖励

4. 主要发现

4.1 理想学习条件下的结果

4.2 近似条件下的结果

5. 对大型语言模型微调的新解释

6. 结论与启示

参考文献

评论

发表回复 取消回复

更多文章

🧠 逻辑之迷:揭秘思维陷阱的奥秘

突破强化学习瓶颈：Group Relative Policy Optimization (GRPO) 的设计与实现

《深度探索：DeepSeek-R1 的算法之旅》

🌟 重新思考语言模型的幻觉：注意力引导的自我反思算法

🌟 探索语言模型的未来：层次自回归变换器的实现细节

发表回复取消回复