理解策略梯度算法

引言

策略梯度（Policy Gradient）是解决强化学习问题的一种方法。如果你对强化学习领域还不太了解，建议先阅读“A (Long) Peek into Reinforcement Learning » Key Concepts”一文，了解问题定义和基本概念。

符号说明

为了帮助大家更好地理解文中的公式，以下是一些常用符号的解释：

符号	含义
(s \in \mathcal{S})	状态
(a \in \mathcal{A})	动作
(r \in \mathcal{R})	奖励
(S_t, A_t, R_t)	在时间步 (t) 的状态、动作和奖励
(\gamma)	折扣因子；用于惩罚未来奖励的不确定性，(0 < \gamma \leq 1)
(G_t)	回报（或折扣后的未来奖励），(G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1})
(P(s’, r \vert s, a))	从当前状态 (s) 通过动作 (a) 转移到下一个状态 (s’) 并获得奖励 (r) 的概率
(\pi(a \vert s))	随机策略（代理行为策略），(\pi_\theta(.)) 是参数化的策略
(\mu(s))	确定性策略；我们也可以用 (\pi(s))，但用不同的字母可以更好地区分随机策略和确定性策略
(V(s))	状态值函数，衡量状态 (s) 的期望回报；(V_w(.)) 是参数化的值函数
(V^\pi(s))	跟随策略 (\pi) 时状态 (s) 的值，(V^\pi(s) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s])
(Q(s, a))	动作值函数，类似于 (V(s))，但评估的是状态和动作对 ((s, a)) 的期望回报；(Q_w(.)) 是参数化的动作值函数
(Q^\pi(s, a))	跟随策略 (\pi) 时状态和动作对 ((s, a)) 的值，(Q^\pi(s, a) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s, A_t = a])
(A(s, a))	优势函数，(A(s, a) = Q(s, a) – V(s))；它可以被看作是另一种具有较低方差的 (Q. 值

策略梯度的核心思想

强化学习的目标是找到一个最优的行为策略，使智能体获得最大的奖励。策略梯度方法直接针对策略进行建模和优化。策略通常用参数 (\theta) 表示为 (\pi_\theta(a \vert s))。奖励（目标）函数的值依赖于这个策略，然后可以应用各种算法来优化 (\theta) 以获得最佳奖励。

奖励函数定义为：

[ J(\theta) = \sum_{s \in \mathcal{S}} d^\pi(s) V^\pi(s) = \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a) ]

其中，(d^\pi(s)) 是 (\pi_\theta) 的马尔可夫链的平稳分布（跟随策略 (\pi) 时的状态分布）。

通过梯度上升，我们可以沿着梯度 (\nabla_\theta J(\theta)) 的方向调整 (\theta)，以找到能产生最高回报的最佳 (\theta)。

策略梯度定理

计算 (\nabla_\theta J(\theta)) 比较复杂，因为它既涉及动作选择（直接由 (\pi_\theta) 决定）又涉及状态分布（间接由 (\pi_\theta) 决定）。由于环境通常是未知的，因此难以估计策略更新对状态分布的影响。

幸运的是，策略梯度定理提供了一种简化梯度计算的优雅方法，不需要涉及状态分布 (d^\pi(.)) 的导数：

[
\begin{aligned}
\nabla_\theta J(\theta)
&= \nabla_\theta \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \
&\propto \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s)
\end{aligned}
]

策略梯度定理的证明

这一部分内容较为密集，我们将通过推导来证明策略梯度定理的正确性。

首先，从状态值函数的导数开始：

[
\begin{aligned}
& \nabla_\theta V^\pi(s) \
=& \nabla_\theta \left(\sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a) \right) \
=& \sum_{a \in \mathcal{A}} \left( \nabla_\theta \pi_\theta(a \vert s) Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\nabla_\theta Q^\pi(s, a)} \right) \quad \text{（乘积法则）} \
=& \sum_{a \in \mathcal{A}} \left( \nabla_\theta \pi_\theta(a \vert s) Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\nabla_\theta \sum_{s’, r} P(s’,r \vert s,a)(r + V^\pi(s’))} \right) \quad \text{（扩展 (Q^\pi) 以包含未来状态值）} \
=& \sum_{a \in \mathcal{A}} \left( \nabla_\theta \pi_\theta(a \vert s) Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\sum_{s’, r} P(s’,r \vert s,a) \nabla_\theta V^\pi(s’)} \right) \quad \text{（使用 (P(s’,r \vert s,a))）}
\end{aligned}
]

可以看到，导数中的一项涉及 (V^\pi(s’)) 的导数，而这又会引入更多的状态和动作。然而，通过数学推导和一些运算技巧，我们可以逐步简化并得出最终的策略梯度公式。

策略梯度算法

接下来，我们介绍几种常见的策略梯度算法：

1. REINFORCE

REINFORCE 是一种基本的策略梯度方法，它通过采样轨迹来估计梯度，并利用这些估计值来更新策略参数。

2. Actor-Critic

Actor-Critic 方法结合了策略评估（critic）和策略改进（actor），使得算法在估计策略梯度时更加高效和稳定。

3. Off-Policy Policy Gradient

这种方法允许我们使用行为策略（behavior policy）来收集数据，并使用目标策略（target policy）来进行学习，从而提高数据利用率。

4. A3C & A2C

A3C. ��Asynchronous Advantage Actor-Critic）和 A2C（Advantage Actor-Critic）是 Actor-Critic 方法的改进版本，通过异步更新和同步更新来提高算法的效率和性能。

5. DDPG & TD3

DDPG（Deep Deterministic Policy Gradient）和 TD3（Twin Delayed Deep Deterministic Policy Gradient）适用于连续动作空间，利用深度神经网络来近似策略和值函数。

6. PPO & TRPO

PPO（Proximal Policy Optimization）和 TRPO（Trust Region Policy Optimization）通过引入信赖域和裁剪机制来确保策略更新的稳定性和有效性。

7. SAC

SAC（Soft Actor-Critic）引入了熵正则化项，使策略在探索和利用之间取得平衡。SAC 还可以自动调整温度参数，以优化探索过程。

8. 其他算法

除了上述几种常见的策略梯度算法，还有一些其他的变种和改进方法，如 SVPG（Stein Variational Policy Gradient）、IMPALA、DPG（Deterministic Policy Gradient）及其多智能体版本 MADDPG 等。

策略梯度算法的应用

策略梯度算法在强化学习的各个领域中有广泛的应用，包括但不限于以下几个方面：

游戏和娱乐：策略梯度算法被广泛应用于训练游戏 AI，例如 OpenAI 的 Dota 2 机器人和 DeepMind 的 AlphaGo。
机器人控制：用于复杂的机器人控制任务，如机械手臂的操作和无人机的导航。
自动驾驶：帮助自动驾驶系统在复杂的道路环境中进行决策和规划。
金融交易：用于优化交易策略，提高投资组合的收益率。
医疗诊断：辅助医疗决策，优化治疗方案。

结论

策略梯度算法提供了一种直接优化策略的方法，使得强化学习在解决复杂决策问题时更加高效和灵活。尽管计算过程相对复杂，但通过合理的算法设计和优化，可以在实际应用中取得显著的效果。

如果你对策略梯度算法感兴趣，不妨深入研究本文提到的各种算法和数学推导。通过不断实践和探索，你将能够掌握这一强大的工具，并将其应用于各种实际问题中。

参考文献

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
Lilian Weng. (2018). Policy Gradient Algorithms. Retrieved from Lil’Log

希望这篇文章能帮助你更好地理解策略梯度算法及其应用。如果有任何问题或建议，欢迎在评论区留言讨论。

理解策略梯度算法

引言

符号说明

策略梯度的核心思想

策略梯度定理

策略梯度定理的证明

策略梯度算法

1. REINFORCE

2. Actor-Critic

3. Off-Policy Policy Gradient

4. A3C & A2C

5. DDPG & TD3

6. PPO & TRPO

7. SAC

8. 其他算法

策略梯度算法的应用

结论

参考文献

评论

发表回复 取消回复

更多文章

张量积注意力（TPA）：让注意力机制飞得更高、跑得更快的秘密武器

《奇幻算法之旅：Gemma 3 的高效运行秘笈》

将 IPFS 分布式文件系统集成到 WordPress

《穿越数理迷宫：从零开始的长链思维探索之旅》

《从塔楼到尖顶：一次语音魔法的奇幻旅程》

最近浏览

发表回复取消回复