首页

基础强化学习

前言

术语与符号说明

绪论

马尔可夫决策过程

动态规划

蒙特卡洛方法

时序差分方法

Dyna-Q 算法

深度学习基础

DQN算法

DQN算法进阶

策略梯度方法

Actor-Critic 算法

DDPG 算法

TRPO 算法

PPO 算法

SAC 算法

实战篇

Gymnasium 环境介绍

Q-learning 算法

Sarsa 算法

PyTorch 入门

DQN 算法

Double DQN 算法

Dueling DQN 算法

Noisy DQN 算法

PER DQN 算法

A2C 算法

DDPG 算法

TD3 算法

TRPO 算法

PPO 算法

离线强化学习

大模型与强化学习

JoyRL 中文文档

基本概念

使用说明

参数说明

通用参数说明

算法参数说明

← 返回目录

Dyna-Q 算法

待补充，敬请期待！

$\text{Dyna-Q}$ 算法是一种结合了模型学习与规划的强化学习方法，旨在提高学习效率和性能。该算法通过同时进行真实环境交互和基于模型的规划，来加速策略的改进过程。