Q-learning 算法使用一个状态-动作值Q 表(也称为 Q 值表)。该 Q 表中每个状态有一行,每个动作有一列。每个单元格都包含相应状态-动作对的估计 Q 值。 初始状态下,所有的 Q 值都设置为为零。随着 Agent 与环境互动并获得反馈,算法会反复改进这些 Q 值,直到它们收敛到最优 Q 值。算法利用贝尔曼方程对其进...
Q-Learning算法是一种查找表方法的有趣实例,也是深度Q学习的基础。其核心在于构建一个状态-动作值Q表,该表用于存储每种状态-动作对的估计Q值。初始时,所有Q值设为零。随着智能体与环境互动,通过获得反馈,Q值不断改进直至收敛至最优值。这一过程依赖于贝尔曼方程进行更新。构建Q表的过程涉及定义不同...