← 返回目录

Dyna-Q 算法

待补充,敬请期待!

$\text{Dyna-Q}$ 算法是一种结合了模型学习与规划的强化学习方法,旨在提高学习效率和性能。该算法通过同时进行真实环境交互和基于模型的规划,来加速策略的改进过程。