符号说明
| 符号 | 说明 |
|---|---|
| $S_t,A_t,R_t$ | 强调一段轨迹中第 $t$ 步的状态、动作、奖励,有时也写作$s_t,a_t,r_t$,大写更强调随机变量 |
| $Pr$ | 某个事件的概率,以区分与状态转移矩阵 $P$ |
| $G_t$ | 回报( $\text{Return}$ ),指从时间步 $t$ 开始的未来(折扣)奖励和 |
| $V^{\pi}(s)$ | 状态价值,表示在策略 $\pi$ 下,从状态 $s$ 出发的期望回报 |
| $Q^{\pi}(s,a)$ | 动作价值,表示在策略 $\pi$ 下,从状态 $s$ 出发,采取动作 $a$ 的期望回报 |
术语说明
| 符号 | 说明 |
|---|---|
| $\text{rollout}$ | 从某个初始状态出发,根据当前策略与环境交互,采样出一整条轨迹的过程。 |
| $\text{horizon}$ | $H=T-t$,即最大步数减去当前步数,表示智能体能向前“看到”的时间长度 |
| $\text{Return}$ | 回报,即从时间步 $t$ 开始的未来(折扣)奖励和 |