Actor-Critic算法是一种结合策略梯度和时序差分学习的强化学习方法,其中Actor是指策略函数πθ(a∣s)π_{\theta}(a|s)πθ(a∣s),即学习一个策略来得到尽量高的回报;Critic是指值函数Vπ(s)V^{\pi}(s)Vπ(s),对当前策略的值函数进行估计,即评估Actor的好坏。 在Ac