JoyRL Book - 强化学习实践教程

← 返回目录

实战教程

章节	PDF	关键内容	1版完成	2版完成
绪论	绪论	☑️	⬜
马尔可夫决策过程	马尔可夫决策过程	马尔可夫决策过程、有模型与无模型、预测与控制	☑️	☑️
动态规划	动态规划	贝尔曼方程、策略迭代、价值迭代	☑️	☑️
蒙特卡洛方法	蒙特卡洛方法	蒙特卡洛预测、蒙特卡洛控制	☑️	☑️
时序差分方法	时序差分方法	时序差分估计、n步时序差分、Q-learning 算法、Sarsa 算法	☑️	☑️
深度学习基础	深度学习基础	函数近似、梯度下降、神经网络、独热编码	☑️	☑️
DQN 算法	DQN 算法	$\text{DQN}$、目标网络、经验回放	☑️	☑️
DQN 算法进阶	DQN 算法进阶	Double DQN、Noisy DQN、Dueling DQN、PER DQN、C51、Rainbow DQN	☑️	☑️
策略梯度	策略梯度	随机性策略、$\text{REINFORCE}$	☑️	☑️
Actor-Critic 算法	Actor-Critic 算法	$\text{A2C}$、$\text{A3C}$	☑️	☑️
DDPG 算法	DDPG 算法	$\text{DDPG}$、$\text{TD3}$	☑️	⬜
TRPO 算法	TRPO 算法	$\text{TRPO}$	⬜
PPO 算法	PPO 算法	重要性采样、$\text{PPO}$	☑️	⬜
SAC 算法	SAC 算法	最大熵强化学习、$\text{Soft Q}$、$\text{SAC}$	☑️	⬜
模仿学习	模仿学习	行为克隆、逆强化学习	⬜