在Q-learning算法中,我们有以下关键元素: 状态(State):每个迷宫格子代表一个状态。在这个例子中,机器人的位置就是当前状态。 行动(Action):机器人可以执行的行动,如上、下、左、右移动。 奖励(Reward):每执行一次行动,机器人会收到一个奖励。奖励可以是正数(例如到达终点),也可以是负数(例如撞到障碍物)。 Q-...