MDP对于研究通过强化学习解决的广泛优化和控制问题非常有用。动态规划(DP)是强化学习的一个分支,指一组算法,这些算法可以在环境的完美模型作为MDP的情况下计算最优策略。动态规划算法最适合优化问题,因为这些算法的设计是为了检查先前解决的子问题,并结合它们的解决方案,以提供给定问题的最佳解决方案。然而,经典的DP算法...