强化学习算法的性能在很大程度上受限于模型本身的能力。随着扩散模型在高维数据领域如图片生成 [1]、视频生成 [2] 中展现出卓越的建模性能,越来越多的学者们也开始探索将扩散模型用于对强化学习算法的改进。 图1 :视频生成扩散模型 SORA 生成的 Minecraft 场景。 [2] 本文是基于综述论文《A Survey on Generative ...
扩散模型已被用于强化学习数据增强,可精确模拟原始数据分布,生成不同数据点扩展原始分布,保持动态准确性。近期研究使用文本引导的扩散模型增强机器人控制观察,保持相同动作。SynthER和MTDiff-s通过扩散模型生成训练任务完整转换,为在线和离线强化学习带来显著政策改进。 6 RL中扩散模型的挑战 本节讨论了强化学习中扩散模型...
基于此,我们将最近出圈的生成式扩散模型(diffusion model)扩展到多任务强化学习领域(multi-task reinforcement learning),利用 large-scale 的离线多任务数据集训练得到通用智能体。 目前解决多任务强化学习的工作大多基于 Transformer 架构,它们通常对模型的规模,数据集的质量都有很高的要求,这对于实际训练来说是代价高昂...
基于此,我们将最近出圈的生成式扩散模型(diffusion model)扩展到多任务强化学习领域(multi-task reinforcement learning),利用 large-scale 的离线多任务数据集训练得到通用智能体。 目前解决多任务强化学习的工作大多基于 Transformer 架构,它们通常对模型的规模,数据集的质量都有很高的要求,这对于实际训练来说是代价高昂...
目前解决多任务强化学习的工作大多基于 Transformer 架构,它们通常对模型的规模,数据集的质量都有很高的要求,这对于实际训练来说是代价高昂的。基于 TD-learning 的强化学习方法则常常面临 distribution-shift 的挑战,在多任务数据集下这个问题尤甚,而我们将序列决策过程建模成条件式生成问题(conditional generative process...
扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题,它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。 但是, 这些工作仍然局限于单一任务单一数据集,无法得到能同时解决多种任务的通用...
扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题,它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。 但是, 这些工作仍然局限于单一任务单一数据集,无法得到能同时解决多种任务的通用...
扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题,它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。 但是, 这些工作仍然...
在 2018 年,多头注意力机制也被引入强化学习 [8],这类工作基本都是应用在类似半符号化(sub-symbolic) 的领域尝试解决强化学习泛化的问题。之后这类尝试就一直处于一种不温不火的状态。根据笔者个人的体验,实际上 Transformer 在强化学习上也并没有展现出稳定的压倒性的优势,而且还很难训练。在 20 年我们的一...
本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。