实战教程
理论教程
| 章节 | 关键内容 | 1版完成 | 2版完成 | |
|---|---|---|---|---|
| 绪论 | 绪论 | ☑️ | ⬜ | |
| 马尔可夫决策过程 | 马尔可夫决策过程 | 马尔可夫决策过程、有模型与无模型、预测与控制 | ☑️ | ☑️ |
| 动态规划 | 动态规划 | 贝尔曼方程、策略迭代、价值迭代 | ☑️ | ☑️ |
| 蒙特卡洛方法 | 蒙特卡洛方法 | 蒙特卡洛预测、蒙特卡洛控制 | ☑️ | ☑️ |
| 时序差分方法 | 时序差分方法 | 时序差分估计、n步时序差分、Q-learning 算法、Sarsa 算法 | ☑️ | ☑️ |
| 深度学习基础 | 深度学习基础 | 函数近似、梯度下降、神经网络、独热编码 | ☑️ | ☑️ |
| DQN 算法 | DQN 算法 | $\text{DQN}$、目标网络、经验回放 | ☑️ | ☑️ |
| DQN 算法进阶 | DQN 算法进阶 | Double DQN、Noisy DQN、Dueling DQN、PER DQN、C51、Rainbow DQN | ☑️ | ☑️ |
| 策略梯度 | 策略梯度 | 随机性策略、$\text{REINFORCE}$ | ☑️ | ☑️ |
| Actor-Critic 算法 | Actor-Critic 算法 | $\text{A2C}$、$\text{A3C}$ | ☑️ | ☑️ |
| DDPG 算法 | DDPG 算法 | $\text{DDPG}$、$\text{TD3}$ | ☑️ | ⬜ |
| TRPO 算法 | TRPO 算法 | $\text{TRPO}$ | ⬜ | |
| PPO 算法 | PPO 算法 | 重要性采样、$\text{PPO}$ | ☑️ | ⬜ |
| SAC 算法 | SAC 算法 | 最大熵强化学习、$\text{Soft Q}$、$\text{SAC}$ | ☑️ | ⬜ |
| 模仿学习 | 模仿学习 | 行为克隆、逆强化学习 | ⬜ |