强化学习(2) 动态规划(Dymatic Progressing) 1. 1 同步价值迭代 动态规划来解决强化学习的规划问题。 在已经了解了状态、行为空间、转移概率矩阵、奖励等信息的基础上,判断一个策略的价值函数。或者判断策略的优劣寻找最优的策略。 一般强化学习是不知道上述的一些动力学环境,而且复杂的问题无法通过动态规划解决。 动态...