但是不足之处是,在MDP环境中DRQN和DQN并没有太大的不同。在POMDP中也只是DQN多帧输入的一个替代。 并不具备系统性的优势。 三.网络结构与更新方式 1.网络结构 最前面是用于图像处理的卷积神经网络,经过卷积神经网络处理的图像特征输入进LSTM中,再经过LSTM处理之后输入DQN。可以看到,算法的网络结构是比较简单的。...
简单讲解DQRN论文及其基本原理,并用paddle实现 - 飞桨AI Studio
最前面是用于图像处理的卷积神经网络,经过卷积神经网络处理的图像特征输入进LSTM中,再经过LSTM处理之后输入DQN。可以看到,算法的网络结构是比较简单的。主要的就是在DQN前面加了一个LSTM层。不过在具体的代码实现和输入输出上还有一些需要注意的地方。同时,因为我们是使用第三方库进行环境的搭建,所以前面的卷积神经网络就...