value-based:输入s,输出Q(s,a) policy-based:输入s,输出p(s,a) 不但如此,还有区别 value-based:输入s,输出Q(s,a)后,我们要选一个动作。其选取方法是: 训练时使用epsilon-greedy(有一定探索) 测试时使用argmax Q(s,a)(确定),也就是1-greedy(确定)。 policy-based:输入s,输出p(s,a)后,我们要选一...
Value Based 最为典型的就是Q learning,此处也是以Q-learning 为例子 Policy Based 最简单和常用的就是REINFORCE,此处以REINFORCE为例子。 区别为: 1) Q learning 拟合值函数,输入一般为state-action pair,…
off-policy和on-policy的根本区别在于off-policy学习的policy和agent实际执行的policy并不相同。虽然看起来很trivial,但这给了off-policy极大的发挥空间,使RL有能力做knowledge representation。假设有一个机器人在地面上行走,我们想知道在某个状态时如果机器人停止动力系统,需要多久才能完全停下来。我们可以...
简单解释 Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。 注:log的有无区别 加log:增加了非线性 无log:无非线性 详情在这里: 一共涉及6种价值的评估: 1 ...