其中R表示Q(s,a)值(这里才用上,之前都不用Q,和value-based完全不一样)。 所以说两者的区别已经够明显了吧!两者的经典算法如下: value-based:sarsa,q-learning,DQN policy-based:policy-gradient思想下属的REINFORCE算法 当然了,最近有将两者结合的方法,如下: 完结撒花...