在这个例子中,机器人的位置就是当前状态。 行动(Action):机器人可以执行的行动,如上、下、左、右移动。 奖励(Reward):每执行一次行动,机器人会收到一个奖励。奖励可以是正数(例如到达终点),也可以是负数(例如撞到障碍物)。 Q-learning算法的核心思想是维护一个Q值表,记录每个状态下采取每个行动的Q值。初始时,Q...
Q learning 最重要的数据结构为 Q 表,Q 是 quality 的缩写。算法最终就是要学习到一张好的 Q 表,这样我们就可以根据 Q 表对环境中的任何情况(状态)都能给出一个好的反应(动作)。具体的,就是每次都选择 Q 表中对应状态下具有最大 Q 值的动作。 动作可以看作是状态之间转换的桥梁。 Q表的作用 Q 表一...
为了简化这个问题, Q - learning做了一个大刀阔斧的假设, 就是我现在做个决策, 后面的决定也都是按照某个最优的法则走的(选择当时的可选行动力最优的), 这样我忽略那些基于此刻行动导致的下个状态下那些不太好的选择 ,而是只考虑那时候最优选择的回报,这也就给出了一个很自洽的解。 也就是说, 此处行动导...
以下哪个是强化学习的例子?A.遗传算法B.支持向量机C.Q-learningD.K-means聚类点击查看答案 你可能感兴趣的试题 第1题:什么是集成学习中的一个重要概念,它涉及到结合多个模型的预测来提高整体性能?A.特征选择B.模型融合C.强化学习D.自监督学习 答案解析与讨论:点击查看 第2题:以下()不属于数据统计分析工具。A...