动态规划(DP) 动态规划最主要的特点是转移概率已知,因此可根据贝尔曼方程来进行状态更新,相当于开了“上帝视角”,不适用于实际问题。 蒙特卡洛(MC) 蒙特卡洛主要思想是通过大量的采样来逼近状态的真实价值。该方法的起始点是任意选取的,一直到终止状态才进行一次更新,因此当动作序列很长时或者出现循环,该方法便不适用。
蒙特卡洛方法:通常适用于没有完全已知环境模型的情况,可以从互动中采样数据的问题,如棋类游戏或真实世界的任务。 动态规划:适用于具有完全已知环境模型的问题,如网格世界,因为它需要环境的模型。 时间差分算法:适用于需要在线学习的问题,即代理在与环境互动时即时更新值函数的问题。 联系: 值函数估计: 所有这三种方法的...
- 动态规划法(dynamic programming methods) - 蒙特卡罗方法(Monte Carlo methods) -时间差分法(temporal difference) 上图是很经典的三种方法的差异图,即使现在还完全不知道他们的定义,也可以总结出它们的特性。 是否需要执行到本轮结束决定了算法的更新频率,这当然是越快越好 是否需要遍历所有可能动作决定了是否需要预...
所有的方法都遵循广义策略迭代(即,广义上的策略评估和策略提升过程) 方法 是否bootstrap 是否基于模型 实现方式 动态规划 是是 1.策略迭代2.价值迭代 蒙特卡洛 否否 1.蒙特卡洛ES 2.on-policy实现 3.off-policy实现 时序差分 是否 1.on-policy实现(sarsa) 2.off-policy实现(q-learning) n步bootstrap 是......
前言:学习了 Sutton 的《强化学习(第二版)》中时序差分学习的“预测”部分内容。前两章中,书介绍了动态规划与蒙特卡洛方法,我们从二者与 时序差分学习 的对比开始讲起。 笔者阅读的是中文书籍,所提到的公式,笔者将给出其在英文书籍上的页码。英文书籍见 Sutton 个人主页: ...
下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估( )A.动态规划B.蒙特卡洛采样C.时序差分(Temporal Difference)D.深度学习
阅读Sutton著作时,对动态规划、蒙特卡洛、时序差分三种方式有些费解,在此对三者的区别作一些简单的梳理。 动态规划(DP) 动态规划最主要的特点是转移概率已知,因此可根据贝尔曼方程来进行状态更新,相当于开了“上帝视角”,不适用于实际问题。 蒙特卡洛(MC)