强化学习实践教程
待补充,敬请期待!
$\text{Dyna-Q}$ 算法是一种结合了模型学习与规划的强化学习方法,旨在提高学习效率和性能。该算法通过同时进行真实环境交互和基于模型的规划,来加速策略的改进过程。