STM和非对称actor critic网络的改进DDPG算法。该算法在actor critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环 境的完全状态进行训练构成非对称网络,...
基金 山东省自然科学基金项目(ZR2021MF072)。 关键词 深度确定性策略梯度算法 人工势场法 长短期记忆 移动机器人 局部路径规划 DDPG algorithm artificial potential field method long short-term memory mobile robot local path planning 分类号 TP242 [自动化与计算机技术—检测技术与自动化装置] 登录...
摘要 本发明涉及一种基于LSTM‑DDPG的部分任务卸载及资源分配算法,包括:创建一个进行部分任务卸载和资源分配的车联网MEC网络模型;将部分任务卸载以及资源分配问题转化为强化学习模型;将LSTM神经网络引入到DDPG算法的演员网络及评论家网络中。与现有的基于DRL的算法相比,本发明的基于LSTM‑DDPG的移动边缘计算算法来解决任...
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法.针对不同地区用户建立了星地融合网络... 宋晓勤,吴志豪,赖海光,... - 《通信学报》 被引量: 0发表: 2024年 基于混合深度强...
本发明涉及一种基于LSTMDDPG的部分任务卸载及资源分配算法,包括:创建一个进行部分任务卸载和资源分配的车联网MEC网络模型;将部分任务卸载以及资源分配问题转化为强化学习模型;将LSTM神经网络引入到DDPG算法的演员网络及评论家网络中.与现有的基于DRL的算法相比,本发明的基于LSTMDDPG的移动边缘计算算法来解决任务卸载和资源分...