数据是由policy μ 产生的,一个算法a,学出来的policy(即是收敛的policy) 是π, 如果算法收敛的policy π 和μ 一样,则a是on-poliy的,否则是off-policy的。 一般地,可以用值函数来表达。 例如sarsa,可以证明:sarsa学习得到的policy对应的值函数的估计和 μ 的值函数是一样的,因此,我们说sarsa是on-policy的...
sarsa中的行为策略和评估策略一定相同,就是(同策略)on-policy。 Qlearning中,动作A1由Qmax得到的,而下一回合的A2用贪婪策略得到(下一回合的Q是在Qmax基础上探索,如图1所示),这时的A1和A2就有可能不一样,就是(异策略)off-policy。
On-policy和off-policy学习只与第一类方法有关。 区别是: 在on-policy学习中, 是从策略产生的样本中学习,并使用它进行控制,边交互边学习。 在off-policy学习中, 是从不同的行动中学习,例如随机行动,并不需要策略采取行动,致力于重用过去的经验样本。
thepolicythatisusedtomakedecisions,whereasoff-policymethodsevaluateorimproveapolicy...on-policy和off-policy是强化学习中出现最多的两个概念,也是最容易让初学者迷惑的概念之一。网上很多博客都是从是否使用当前policy和其它policy角度出发解释的,但是笔者认为 ...
对于on policy和off policy的区别,我看到了下面这个说法。我觉得这个说法可以区别SARSA算法(on policy)和Q-learning算法(off policy)以及SARSA算法(on policy)和DQN(off policy)。 如下: 这个我觉得解释得会有道理一些。所以根本区别就还是学习方式的不一样,按照这个理解超好理解。反而划分什么行为策略,目标策略有点...
on-policy优点是直接了当,速度快,劣势是不一定找到最优策略。off-policy劣势是曲折,收敛慢,但优势是...
on-policy优点是直接了当,速度快,劣势是不一定找到最优策略。off-policy劣势是曲折,收敛慢,但优势是...
Rich Sutton的书里不是给了个例子说明on policy为啥不好么。
表格型问题,经过无限次采样/无限轮计算,可以得到全局最优解。函数逼近方法,可能会陷入局部最优解,...
如果用experience replay,根据on-policy和off-policy的定义,算法不就成off-policy了嘛,因为过去的样本...