3)设计了一种基于无人机电量约束、路径最小化的多评论家深度确定性策略梯度算法,实验结果表明所提出算法相较于原始MCDDPG、TD3算法具有更快的收敛效果和较好的稳定性,训练完成后的算法可以应用到不同场景当中,体现了强化学习算法在数据收集任务中的...
It also surpasses the standard DQN algorithm in terms of convergence speed and stability.房鹏程周焕银董玫君Machine Tool & Hydraulics
1.一种基于增量式发育深度强化学习的无人机路径规划方法,其特征在于,包括以下步骤:步骤1.构建UAV运动模型;步骤 2.以DDPG网络模型为基础,采用Actor-Critic架构,利用DDPG神经网络架构连续输出决策动作;步骤 3.引入了增量式发育知识库,训练改进DDPG网络模型,更新DDPG网络模型网络参数,规划出无碰撞飞行路径;所述步骤3中增...