可以啊,ppo,AC,A2C,A3C都是啊,网络只是拟合用的,深度神经网络是用于复杂函数,普通的强化学习任务...
主要是深度学习的函数拟合能力好,可以通过训练不断的去拟合任何形式的函数,而强化学习无论Qlearning ...