Actor:Actor 就是指的 Policy Function,是用来和环境交互,做出动作,可以理解为一个”表演者“。 Critic:Critic 就是式子中的 Q,是一个”评论者“的角色,用来评论 actor 所做出的动作实际能得到多少价值。 我们可以把 Actor-Critic 算法比喻为:Actor在台上跳舞,一开始舞姿并不好看,Critic根据Actor的舞姿打分。Actor...