STM和非对称actor critic网络的改进DDPG算法。该算法在actor critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环 境的完全状态进行训练构成非对称网络,...