state=env.reset()# 新一轮游戏开始,重置环境 episode_reward=0# 记录本轮游戏的总奖励值 withtf.GradientTape()astape:# 构建 GradientTape 用于计算梯度 fortimestepinrange(1,max_steps_per_episode):# 本轮游戏如果一切正常会进行 max_steps_per_episode 步 state=tf.convert_to_tensor(state)# 将状态转换...