← 返回目录

符号说明

符号说明
$S_t,A_t,R_t$强调一段轨迹中第 $t$ 步的状态、动作、奖励,有时也写作$s_t,a_t,r_t$,大写更强调随机变量
$Pr$某个事件的概率,以区分与状态转移矩阵 $P$
$G_t$回报( $\text{Return}$ ),指从时间步 $t$ 开始的未来(折扣)奖励和
$V^{\pi}(s)$状态价值,表示在策略 $\pi$ 下,从状态 $s$ 出发的期望回报
$Q^{\pi}(s,a)$动作价值,表示在策略 $\pi$ 下,从状态 $s$ 出发,采取动作 $a$ 的期望回报

术语说明

符号说明
$\text{rollout}$从某个初始状态出发,根据当前策略与环境交互,采样出一整条轨迹的过程。
$\text{horizon}$$H=T-t$,即最大步数减去当前步数,表示智能体能向前“看到”的时间长度
$\text{Return}$回报,即从时间步 $t$ 开始的未来(折扣)奖励和