Knox, W. B., Hatgis-Kessell, S., Adalgeirsson, S. O., Booth, S., Dragan, A., Stone, P., & Niekum, S. (2024). Learning Optimal Advantage from Preferences and Mistaking It for Reward. In The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24).✅
Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems.✅
Knox, W. B., Stone, P., & Niekum, S. (2022). Reward (Mis)design for Autonomous Driving. arXiv preprint arXiv:2104.13906.✅
本文探讨了一个重要的问题:当我们假设人类偏好来自部分回报,但实际上来自遗憾时,我们究竟学到了什么,这种错误假设会带来什么影响?这个问题对于理解强化学习中的人类反馈(RLHF)至关重要。让我们深入探讨这篇论文的主要内容。
1. 背景介绍
强化学习中的人类反馈(RLHF)是一种重要的技术,它通过学习人类偏好来优化AI系统的行为。传统上,研究人员假设人类偏好是基于轨迹片段的累积奖励(部分回报)来生成的。然而,最近的研究表明,这个假设可能存在问题。
Knox等人(2022)提出了一个替代模型,认为人类偏好是基于遗憾(或等价地,最优优势函数)而不是部分回报。这个新模型在直觉上更符合人类给出偏好的方式,而且在理论和实证分析上都显示出优势。
本文深入研究了当实际偏好来自遗憾模型,但算法却假设它们来自部分回报模型时会发生什么。这种错误假设的后果对于理解RLHF的成功至关重要。
2. 偏好模型
在深入讨论主要结果之前,我们先回顾一下两种关键的偏好模型:
2.1 部分回报模型
部分回报模型假设人类偏好是基于两个轨迹片段的累积奖励生成的。数学表达如下:
$P_{\Sigma r}(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\Sigma_{\sigma_1} r – \Sigma_{\sigma_2} r)$
其中 $\Sigma_{\sigma} r$ 表示片段 $\sigma$ 的累积奖励。
2.2 遗憾模型
遗憾模型假设偏好是基于每个片段与最优决策的偏差程度。对于确定性转移,单个转移的遗憾定义为:
$\text{regret}d(\tau_t|r) = V^_r(s^\sigma_t) – [r_t + V^_r(s^\sigma{t+1})]$
对于整个片段:
$\text{regret}d(\sigma|r) = V^_r(s^\sigma_0) – (\Sigma\sigma r + V^r(s^\sigma{|\sigma|}))$
为了处理随机转移,最终的遗憾定义为:
$\text{regret}(\sigma|r) = \sum_{t=0}^{|\sigma|-1} -A^*_r(s^\sigma_t, a^\sigma_t)$
遗憾偏好模型则表示为:
$P_{\text{regret}}(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\sum_{t=0}^{|\sigma_1|-1} A^r(\sigma{1,t}) – \sum_{t=0}^{|\sigma_2|-1} A^r(\sigma{2,t}))$
3. 从偏好中学习最优优势函数并将其误用为奖励
本文的核心问题是:当偏好实际上来自遗憾模型,但我们却假设它们来自部分回报模型时,会发生什么?
3.1 学习最优优势函数
首先,作者统一了两种偏好模型为一个通用形式:
$P_g(\sigma_1 \succ \sigma_2|r) = \text{logistic}(\sum_{t=0}^{|\sigma_1|-1} g(\sigma_{1,t}) – \sum_{t=0}^{|\sigma_2|-1} g(\sigma_{2,t}))$
当偏好来自部分回报时, $g(\tau_t) = r(s^\sigma_t, a^\sigma_t, s^\sigma_{t+1})$。
当偏好来自遗憾时, $g(\tau_t) = A^_r(\sigma_t) = A^_r(s^\sigma_t, a^\sigma_t)$。
在遗憾情况下,我们可以直接学习最优优势函数 $\hat{A}^_r$,并通过贪婪方式使用它: $\arg\max_a \hat{A}^_r(s,a)$ 。这种方法不需要额外的策略改进步骤,也不需要显式表示或学习奖励函数。
3.2 将最优优势函数误用为奖励
接下来,作者考虑了两种情况:
这种误用的分析旨在解释为什么假设部分回报偏好模型的学习在实践中往往效果很好,尽管它作为人类偏好的描述性模型并不理想。
4. 主要发现
4.1 理想学习条件下的结果
在理想学习条件下(无近似误差),错误地假设部分回报偏好模型会导致一个高度塑造的奖励函数,但它保留了最优策略集。具体来说:
这意味着,尽管我们错误地将最优优势函数解释为奖励,但它仍然保留了原始MDP的最优行为。
4.2 近似条件下的结果
然而,在实际应用中,我们通常只能学到 $A^_r$ 的近似 $\hat{A}^_r$。在这种情况下:
5. 对大型语言模型微调的新解释
作者指出,许多用于微调最先进语言模型(如ChatGPT)的最新算法可以被视为学习最优优势函数并无意中将其视为奖励函数的一个实例。在多轮(即连续)设置中,这种新的框架消除了这些算法的一个任意假设:为连续任务学习的奖励函数被用于赌博设置,实际上将折扣因子 $\gamma$ 设为0。
6. 结论与启示
总的来说,这项研究为理解和改进RLHF方法提供了重要的理论洞察,对于未来的AI系统开发和优化具有重要意义。
参考文献