← 返回目录

实战教程

点击查看实战教程部分

理论教程

章节PDF关键内容1版完成2版完成
绪论绪论☑️
马尔可夫决策过程马尔可夫决策过程马尔可夫决策过程、有模型与无模型、预测与控制☑️☑️
动态规划动态规划贝尔曼方程、策略迭代、价值迭代☑️☑️
蒙特卡洛方法蒙特卡洛方法蒙特卡洛预测、蒙特卡洛控制☑️☑️
时序差分方法时序差分方法时序差分估计、n步时序差分、Q-learning 算法、Sarsa 算法☑️☑️
深度学习基础深度学习基础函数近似、梯度下降、神经网络、独热编码☑️☑️
DQN 算法 DQN 算法$\text{DQN}$、目标网络、经验回放☑️☑️
DQN 算法进阶 DQN 算法进阶Double DQN、Noisy DQN、Dueling DQN、PER DQN、C51、Rainbow DQN☑️☑️
策略梯度策略梯度随机性策略、$\text{REINFORCE}$☑️☑️
Actor-Critic 算法 Actor-Critic 算法$\text{A2C}$、$\text{A3C}$☑️☑️
DDPG 算法 DDPG 算法$\text{DDPG}$、$\text{TD3}$☑️
TRPO 算法 TRPO 算法$\text{TRPO}$
PPO 算法 PPO 算法重要性采样、$\text{PPO}$☑️
SAC 算法 SAC 算法最大熵强化学习、$\text{Soft Q}$、$\text{SAC}$☑️
模仿学习 模仿学习行为克隆、逆强化学习