(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM–PPO算法在多机空战...
首先,该模型融 合 LSTM 和 PPO 算法作为视觉导航的网络模型;其次,通过移动机器人动作,与目标距离,运动时间等因素设计奖励函数,用以 训练目标;最后,以移动机器人第一视角获得的 RGB-D 图像及目标点的极性坐标为输入,以移动机器人的连续动作值为输出, 实现无地图的端到端视觉导航任务,并根据推理到达未接受过训练...
首先,在UCAV三自由度模型的基础上构建飞行驱动模块,形成状态转移更新机制;然后在近端策略优化算法的基础上加入Ornstein-Uhlenbeck随机噪声以提高UCAV对未知状态空间的探索能力,结合长短时记忆网络(LSTM)增强对序列样本数据的学习能力,提升算法的训练效率和效果。最后通过设计3组近距空战仿真实验,并与PPO算法作性能对比,...
基于注意力的循环PPO算法及其应用 针对深度强化学习算法在部分可观测环境中面临信息掌握不足,存在随机因素等问题,提出了一种融合注意力机制与循环神经网络的近端策略优化算法(ARPPO算法).该算法首先通... 吕相霖,臧兆祥,李思博,... - 《计算机技术与发展》 被引量: 0发表: 2024年 基于LSTM与非对称网络的改进DDP...