[offline RL论文]Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization 1 年前 云深时未见你关注本文发表在ICLR 2023上,notable top 5%OpenReview链接 1.Motivation 感觉这篇文章这块应该是硬讲的,应该是先有的方法,然后得到与IQL与CQL相关的分析结果。文章主要提出了一种和SAC...
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, and Xianyuan Zhan. ICLR, 2023. Extreme Q-Learning: MaxEnt RL without Entropy Divyansh Garg, Joey Hejna, Matthieu Geist...
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization, ICLR (2023) Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble, NeurIPS (2021) About Robust Offline Reinforcement Learning with Heavy-Tailed Rewards Topics robust-statistics heavy-tailed-...
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization ryanxhr/ivr • • 28 Mar 2023 This gives a deeper understanding of why the in-sample learning paradigm works, i. e., it applies implicit value regularization to the policy. 4 Paper Code ...
2.2 OOD(out-of-distribution) action问题 OOD问题在Offline RL中非常常见,简单的可以理解为状态-动作对可能不在我们的offline Dataset中,对应的分布也一样,即学习分布远在(far outside)训练(training distribution)分布之外。 那么训练和优化过程如下: 结合上图,其实真正解决这个问题,第一直观的想法就是增大数据集的...
Offline RL 算法(到目前为止)建立在标准的off-policy深度强化学习算法之上,这些算法倾向于优化某种形式的贝尔曼方程或TD误差。 大多数 IL 问题假设有一个最优的,或者至少是一个高性能的提供数据的演示器,而Offline RL 可能必须处理高度...
offline RL中的显著问题——分布偏移(offline dataset和learned policy)。此前的一篇工作说明了处理offline RL中的OOD动作的能力可以归结到学习状态-动作对的representation。学到的表示能够捕捉潜在的结构以及状态-动作空间的必要信息,由此提升智能体的学习效率和泛化能力 ...
这个问题其实Fujimoto在2019年的时候就提到了(如图所示),但直到现在仍然对Offline RL算法的训练非常大的影响。 备注:Final buffer: train a DDPG agent for 1 million time steps, adding N (0, 0.5) Gaussian noise to actions for high exploration, and store all experienced transitions.Concurrent:train the ...
Offline RL 算法(到目前为止)建立在标准的off-policy深度强化学习算法之上,这些算法倾向于优化某种形式的贝尔曼方程或TD误差。 大多数 IL 问题假设有一个最优的,或者至少是一个高性能的提供数据的演示器,而Offline RL 可能必须处理高度次优(subopt)的数据。
这篇文章认为,在support constraint这个方向上,将offline RL中的策略约束方法可以分为两类: 1、参数化(parameterization):利用行为策略的生成模型直接限制学习策略采取的action; 缺点在于实际使用起来耗时长,不利于后续的迁移或者online的调优。 2、正则化(regularization):在actor loss上加一个惩罚项,衡量学习策略和行为...