摘要:目前基于策略约束和正则化的离线强化学习算法非常广泛,它们直接正面去解决OOD之外的动作分布,使得Learned policy能够很好的逼近行为策略,本文提出的 IQL(Implicit Q-learning) 直接没有去学习OOD之外的动作,而是用已知的state-action进行学习,通过使用SARSA style的方式重构策略和值函数(引入Expectile Regression) L ,...