因此,为了更好地理解 Diffusion Model + RL 这一系列技术的原理,同时探索它在不同类型决策问题上的潜力,OpenDILab 团队推出 Diffusion Model + RL 系列技术科普和研讨博客,希望和广大技术爱好者一起探索和讨论 Diffusion Model + RL 的无限可能性。
上期回顾:Diffusion Model + RL 系列技术科普博客(7):Noise schedule 0. 引言 强化学习算法的性能在很大程度上受限于模型本身的能力。随着扩散模型在高维数据领域如图片生成 [1]、视频生成 [2] 中展现出卓越的建模性能,越来越多的学者们也开始探索将扩散模型用于对强化学习算法的改进。 图1 :视频生成扩散模型 SOR...
展望未来,Diffuser作为一种用于生成决策轨迹的扩散模型,不仅能够赋予智能体解决复杂决策问题的能力,还展现了其在不同场景下的灵活应用。OpenDILab团队将继续探索Diffusion Model + RL这一系列技术的前沿研究,并结合DI-engine讨论实践应用中的技巧和挑战。
扩散模型,如Diffuser,通过迭代的去噪过程产生数据,逆过程则用于建模复杂分布。这些模型在决策轨迹的建模中展现出了强大威力,特别是在离线RL环境中,它们能够处理模型-free和model-based策略的融合。方法论 Diffuser以模仿学习(通过模仿专家策略)和强化学习(扩散模型与RL的集成)为两大支柱。轨迹表示采用...
Diffusion Model + RL 系列技术科普博客(8):强化学习中的扩散模型应用概览 强化学习中的模型性能提升一直依赖于模型的革新。扩散模型在图像生成和视频生成中的卓越表现,促使研究者们探索如何将其融入强化学习算法。这篇博客基于《生成扩散模型综述》[3],探讨了扩散模型在强化学习中的具体应用,评估了...
机器学习和人工智能算法不断发展,以解决复杂问题并加深我们对数据的理解。其中一个引人注目的模型类别是扩散模型,它们因能够捕捉和模拟像数据生成和图像合成这样的复杂过程而受到重视。 在这篇文章中,我们将探讨: 什么是扩散? 什么是扩散模型? 扩散模型是如何工作的?
Overview of Diffusion Model in RLThe Diffusion Model in RL was introduced by “Planning with Diffusion for Flexible Behavior Synthesis” by Janner, Michael, et al. It casts trajectory optimization as a diffusion probabilistic model that plans by iteratively refining trajectories....
1.2 训练reward model 作者利用收集到的偏好数据微调CLIP model[3],将CLIP对齐到人的偏好上。借助CLIP的置信度可以定义出Human Preference Score (HPS),用作人对图像质量评价的代理,类似于RLHF中的训练reward model。 HPS的训练使用了数据集的20k,剩下的5k用于测试,测试结果如下图所示: ...
而一些可解析的分布函数又难以表征比较复杂的数据分布。这篇文章从热力学扩散中得到灵感,提出一种扩散模型(diffusion model),把原始信息逐步扩散到一个简单明了并能解析计算的分布(比如正态分布),然后学习这个扩散(diffusion)过程,最后在进行反传(reverse diffusion),从一个纯噪声逐步恢复出原始信息。
Metadiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL, ICML 2023. [paper] Hierarchical Diffusion for Offline Decision Making, ICML 2023. [paper] [code] Contrastive Energy Prediction for Exact Energy-guided Diffusion Sampling in Offline Reinforcement Learning, ICML 2023. [paper] [...