在介绍 TransformRL 的分类方法之前,论文回顾了 RL 中网络架构设计的早期进展,并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。函数逼近器的架构 自 Deep Q-Network [Mnih et al., 2015] 的开创性工作以来,人们为 DRL 智能体的网络架构做了许多努...
例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并表现出比CNN和RNN更优越的性能,比如Transformer架构能够对较长的依赖关系进行建模,并具有出色的可扩展性。受SL成功...
在介绍 TransformRL 的分类方法之前,论文回顾了 RL 中网络架构设计的早期进展,并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。 函数逼近器的架构 自Deep Q-Network [Mnih et al., 2015] 的开创性工作以来,人们为 DRL 智能体的网络架构做了许多努力。...
在介绍 TransformRL 的分类方法之前,论文回顾了 RL 中网络架构设计的早期进展,并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。 函数逼近器的架构 自Deep Q-Network [Mnih et al., 2015] 的开创性工作以来,人们为 DRL 智能体的网络架构做了许多努力。...
然而,与监督学习(SL)中的架构设计相比,在DRL中选择架构设计的问题仍然没有得到充分的探讨,大多数现有的关于RL架构的工作是由(半)监督学习社区的成功所激发的。 例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。
在介绍 TransformRL 的分类方法之前,论文回顾了 RL 中网络架构设计的早期进展,并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。 函数逼近器的架构 自Deep Q-Network [Mnih et al., 2015] 的开创性工作以来,人们为 DRL 智能体的网络架构做了许多努力。
为了应对这些挑战,基于模型的 DRL算法应运而生,成为一种有前途的方法,它可以同时解决这两个问题,同时在样本效率高的环境中表现出显著的性能提升。这些算法首先通过自监督学习构建真实环境的参数化模拟世界模型。自监督学习可以通过多种方式实现,例如使用解码器重建原始输入状态 [8–10]、预测帧之间的动作 [7] 或采用...
在介绍 TransformRL 的分类方法之前,论文回顾了 RL 中网络架构设计的早期进展,并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构,将有助于深度强化学习(DRL)的发展。 函数逼近器的架构 自Deep Q-Network [Mnih et al., 2015] 的开创性工作以来,人们为 DRL 智能体的网络架构做了许多努力。
例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。 近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并表现出比CNN和RNN更优越的性能,比如Transformer架构能够对较长的依赖关系进行建模,并具有出色的可扩展性。
为了解决这个问题,一个有效的机制是在DRL框架中引入inductive bias,其中比较重要的是函数近似器架构的选择(the choice of function approximator architectures),例如DRL智能体的神经网络的参数化。 然而,与监督学习(SL)中的架构设计相比,在DRL中选择架构设计的问题仍然没有得到充分的探讨,大多数现有的关于RL架构的工作...