value-based:输入s,输出Q(s,a) policy-based:输入s,输出p(s,a) 不但如此,还有区别 value-based:输入s,输出Q(s,a)后,我们要选一个动作。其选取方法是: 训练时使用epsilon-greedy(有一定探索) 测试时使用argmax Q(s,a)(确定),也就是1-greedy(确定)。 policy-based:输入s,输出p(s,a)后,我们要选一...
Value Based 最为典型的就是Q learning,此处也是以Q-learning 为例子 Policy Based 最简单和常用的就是REINFORCE,此处以REINFORCE为例子。 区别为: 1) Q learning 拟合值函数,输入一般为state-action pair,…