JoyRL Book - 强化学习实践教程

← 返回目录

符号说明

符号	说明
$S_t,A_t,R_t$	强调一段轨迹中第 $t$ 步的状态、动作、奖励，有时也写作$s_t,a_t,r_t$，大写更强调随机变量
$Pr$	某个事件的概率，以区分与状态转移矩阵 $P$
$G_t$	回报（ $\text{Return}$ ），指从时间步 $t$ 开始的未来（折扣）奖励和
$V^{\pi}(s)$	状态价值，表示在策略 $\pi$ 下，从状态 $s$ 出发的期望回报
$Q^{\pi}(s,a)$	动作价值，表示在策略 $\pi$ 下，从状态 $s$ 出发，采取动作 $a$ 的期望回报

符号	说明
$\text{rollout}$	从某个初始状态出发，根据当前策略与环境交互，采样出一整条轨迹的过程。
$\text{horizon}$	$H=T-t$，即最大步数减去当前步数，表示智能体能向前“看到”的时间长度
$\text{Return}$	回报，即从时间步 $t$ 开始的未来（折扣）奖励和