为解决该问题,论文首次将风格指标引入值网络和策略网络,搭建了多风格控制策略网络,并结合值分布强化学习理论构建了多风格策略迭代框架,依托该框架推导提出了多风格值分布强化学习算法,该算法可通过单一策略网络实现多样化轨迹跟踪避障。 一、研究背...
为解决该问题,论文首次将风格指标引入值网络和策略网络,搭建了多风格控制策略网络,并结合值分布强化学习理论构建了多风格策略迭代框架,依托该框架推导提出了多风格值分布强化学习算法,该算法可通过单一策略网络实现多样化轨迹跟踪避障。 一、研究背景 轨迹跟踪避撞主流控制方法包括模型预测控制(MPC)和在线应用的强化学习(RL...
首次将风格指标引入值网络和策略网络,搭建 了多风格跟踪避撞策略网络,并结合值分布强化学习理论构建了多风格策略迭代框架,依托该框架推导提出了多风 格值分布强化学习算法.仿真和实车试验表明:所提出方法可以多种驾驶风格(激进,中性,保守)完成轨迹跟踪避 撞任务,实车稳态轨迹跟踪误差小于 5 cm,具备较高的控制精度,...
本发明公开了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置,涉及自动驾驶车辆控制及智能算法技术领域。包括:获取待控制车辆的信息;将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络;将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,...