plt.show()print(f"状态:{len(env.P)}, 每个状态可执行动作细节:{env.P[0]}")#初始化格子价值values = np.zeros(16)#初始化每个格子采取动作的概率pi = np.ones([16,4]) * 0.25algorithm="价值迭代"values, pi#计算状态-动作价值defget_qsa(state, action): value= 0.0forprob, next_state, rewa...
虽然这些算法处理的是离散状态空间,但价值函数近似被应用于将强化学习算法扩展到连续状态空间。 在本报告中,我们通过解决一个优化问题和一个控制问题来探索各种强化学习算法。选择杰克的汽车租赁问题作为优化问题,并使用动态规划进行求解;选择摆杆平衡问题作为具有固有不稳定性的非线性控制问题,并使用上述所有离散时间和...