摘要:针对现有基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法的再入制导方法计算精度较差, 对强扰动条件适应性不足等问题, 在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG, LSTM-D...
最近看了一些大佬的DDPG的实现(其实都是基于莫凡大佬的那个版本),结合我自己的毕设问题,发现只是用普通的全连接网络好像不太稳定,表现也不好,于是尝试了一下试着用一直对序列数据有强大处理能力的lstm来试试(虽然这个已经有人做过了),自己手动实现了一下基于lstm的ddpg,希望各位大佬指导指导。 代码语言:javascript ...
有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于L STM和非对称actor critic网络的改进DDPG算法。该算法在actor critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入...
摘要 本发明涉及一种基于LSTM‑DDPG的部分任务卸载及资源分配算法,包括:创建一个进行部分任务卸载和资源分配的车联网MEC网络模型;将部分任务卸载以及资源分配问题转化为强化学习模型;将LSTM神经网络引入到DDPG算法的演员网络及评论家网络中。与现有的基于DRL的算法相比,本发明的基于LSTM‑DDPG的移动边缘计算算法来解决任...
一种基于Bi‑LSTM和DDPG算法的输电线路施工设备平行控制方法及装置,方法包括:基于阶段突变策略的差分进化算法对时序注意力机制的权重进行优化,通过特征注意力机制和优化后的时序注意力机制构建Bi‑LSTM网络模型;将施工设备状态数据输入Bi‑LSTM网络模型得到施工设备状态预测结果;基于优先级的事后经验回放对DDPG算法进行...
展开更多 Aiming at the problems of long training time and slow convergence speed of deep reinforcement learning algorithm,this paper proposes an APF-LSTM-DDPG algorithm which integrates the deep deterministic policy gradient(DDPG)algorithm,the artificial potential field(APF)meth...MORE 作者 李永迪 李...