policy-based:输入s,输出p(s,a) 不但如此,还有区别 value-based:输入s,输出Q(s,a)后,我们要选一个动作。其选取方法是: 训练时使用epsilon-greedy(有一定探索) 测试时使用argmax Q(s,a)(确定),也就是1-greedy(确定)。 policy-based:输入s,输出p(s,a)后,我们要选一个动作。其选取方法是: 训练时根据...
Value Based 最为典型的就是Q learning,此处也是以Q-learning 为例子 Policy Based 最简单和常用的就是REINFORCE,此处以REINFORCE为例子。 区别为: 1) Q learning 拟合值函数,输入一般为state-action pair,…
Policy Gradient简述 占个坑!!! 简单解释 Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。 注:log的有无区别 加log:增加了非线性 无log:无非线性 详情在...