近年来,基于模型的强化学习(MBRL)在解决各种任务中展现出强大的能力。然而,现有的MBRL代理在处理长期依赖关系方面存在困难,这限制了它们在涉及行动和结果之间长时间间隔的任务,或需要回忆远距离观察结果来指导当前行动的任务中的表现。为了克服这一挑战,本文介绍了一种名为“回忆想象”(Recall to Imagine,R2I. 的新方法,它将一种新型状态空间模型(SSM)整合到MBRL代理的世界模型中,以增强长期记忆和长范围信用分配能力。✅
Hafner, D. , Lillicrap, T. P., Norouzi, M., & Schmidhuber, J. (2023). DreamerV3: Learning and planning in✅ large, stochastic worlds. arXiv preprint arXiv:2302.04023.
Gu, S. , Hoffman, M., Edwards, H., Roberts, A., Brunskill, E., & Lake, B. M. (2021a). S4: Deep✅ learning on symbolic sequences. arXiv preprint arXiv:2106.03107.
Smith, S. L., Gupta, A., Gu, S., & Lake, B. M. (2023). Efficiently modeling long sequences with✅ state space models. arXiv preprint arXiv:2302.10871.
近年来,基于模型的强化学习(MBRL)在解决各种任务中展现出强大的能力。然而,现有的MBRL代理在处理长期依赖关系方面存在困难,这限制了它们在涉及行动和结果之间长时间间隔的任务,或需要回忆远距离观察结果来指导当前行动的任务中的表现。为了克服这一挑战,本文介绍了一种名为“回忆想象”(Recall to Imagine,R2I. 的新方法,它将一种新型状态空间模型(SSM)整合到MBRL代理的世界模型中,以增强长期记忆和长范围信用分配能力。✅
长期记忆的困境:世界模型的挑战
在强化学习中,世界模型通过捕捉环境的动态变化,赋予代理感知、模拟和规划的能力。MBRL代理通过学习过去经验中的世界模型,能够“想象”其行动的未来后果,并做出明智的决策。
然而,MBRL面临着两个关键挑战:
S4模型:突破长期依赖关系的利器
近年来,状态空间模型(SSM)在监督学习和自监督学习任务中展现出捕捉超长序列依赖关系的能力。其中,S4模型凭借其优异的性能,重新定义了长距离序列建模的研究方向。S4模型源于一个时间不变的线性动力系统,它学习状态矩阵,并能够有效地捕捉高达16K长度的依赖关系,超越了先前方法的局限性。
回忆想象:赋予世界模型记忆能力
R2I方法首次将S4模型的变体应用于MBRL,为代理提供了强大的长期记忆能力。R2I是一种通用且计算效率高的方法,在各种记忆领域展现出最先进的性能。
R2I的核心思想:
R2I的优异表现
R2I在各种记忆领域展现出优异的性能,包括:
此外,R2I在经典的强化学习任务中也展现出良好的性能,例如:
总结
R2I方法通过将S4模型整合到世界模型中,赋予了MBRL代理强大的长期记忆能力。R2I在各种记忆领域展现出最先进的性能,并超越了人类在记忆迷宫中的表现。R2I的通用性和计算效率使其成为解决长期记忆和信用分配问题的强大工具。
参考文献
large, stochastic worlds. arXiv preprint arXiv:2302.04023.
learning on symbolic sequences. arXiv preprint arXiv:2106.03107.
state space models. arXiv preprint arXiv:2302.10871.