使用神经网络表达策略,这使得学习和使用规划策略变得可能.然而,这种以神经网络表达的规划策略容易带来过拟合的问题,通常无法直接应用于新的规划任务或环境.针对这一问题,论文提出了一种基于深度强化学习技术的航迹规划方法:使用深度神经网络学习策略网络(Actor Network)和价值评估网络(Critic Network),这些深度网络从规划...