举例子来说,Sarsa是同策略,其他带Q函数的都是异策略。 Q-learning、AC用到了Q函数的max,相当于用了另一张Q表,是异策略。 DQN用到了target model(这是个训练model),这个target model积累几次学习的效果,才会和本次交互的model做一个更新,所以是异策略。 DDPG也用到了target model,所以是异策略。 PG有点特殊...