最近几年离线强化学习(OfflineRL)是强化学习研究社区的一个热门方向,三大会的关于OfflineRL的投稿文章一年比一年多,虽然还算一个还算小热门的方向,但是这个领域的开源实现对科研人员很不友好: 首先是大部分的代码都是在以往的算法库(具体指的是Online RL的算法库)直接搭建的,例如CQL的官方代码直接在rlkit的代码上搭建...