value-based:输入s,输出Q(s,a) policy-based:输入s,输出p(s,a) 不但如此,还有区别 value-based:输入s,输出Q(s,a)后,我们要选一个动作。其选取方法是: 训练时使用epsilon-greedy(有一定探索) 测试时使用argmax Q(s,a)(确定),也就是1-greedy(确定)。 policy-based:输入s,输出p(s,a)后,我们要选一...
Value Based 最为典型的就是Q learning,此处也是以Q-learning 为例子 Policy Based 最简单和常用的就是REINFORCE,此处以REINFORCE为例子。 区别为: 1) Q learning 拟合值函数,输入一般为state-action pair,…
off-policy和on-policy的根本区别在于off-policy学习的policy和agent实际执行的policy并不相同。虽然看起来很trivial,但这给了off-policy极大的发挥空间,使RL有能力做knowledge representation。假设有一个机器人在地面上行走,我们想知道在某个状态时如果机器人停止动力系统,需要多久才能完全停下来。我们可以...
[Value Based 方法] (1) Value based的方法的背景知识 对于MDP, S,A,P,R,r来说,首先是定义了value function, V(s)和Q(s,a), 在有了value function的定义以后,就可以得到 Optimal value Optimal policy 然后又引出了Bellman Equation,Bellman Equation 又可以推导出B... 查看原文 Machine Learning(8): ...