value-based和policy-based的区别

2025-01-24 06:45:21

拼音 [ 拼音 ]

(深入理解)强化学习中的policy-based和value-based区别是什么?

value-based:输入s,输出Q(s,a) policy-based:输入s,输出p(s,a) 不但如此,还有区别 value-based:输入s,输出Q(s,a)后,我们要选一个动作。其选取方法是: 训练时使用epsilon-greedy(有一定探索) 测试时使用argmax Q(s,a)(确定),也就是1-greedy(确定)。 policy-based:输入s,输出p(s,a)后,我们要选一...
强化学习Value Based 和 Policy Based区别 - 知乎

Value Based 最为典型的就是Q learning,此处也是以Q-learning 为例子 Policy Based 最简单和常用的就是REINFORCE,此处以REINFORCE为例子。区别为: 1) Q learning 拟合值函数,输入一般为state-action pair,…