CartPole-v0和v1是Gym中的两个版本,分别要求保持杆子竖直的时间不同。在控制倒立摆时,可以利用简单的控制模型,如基于加权和的决策策略,通过爬山算法优化权值,以最大化持续时间。爬山算法通过局部搜索,逐步改进模型参数,直到找到最优解。虽然Gym提供了丰富的环境,如车杆游戏(CartPole)、迷宫等,都...
CartPole-v0的值为200/195.0,CartPole-v1的值为500/475.0。乍一看,其余部分似乎完全相同。 import gym env = gym.make("CartPole-v1") print(self.env.spec.max_episode_steps) print(self.env.spec.reward_threshold) 我希望有人能够为我描述一下具体的区别,或者给我推荐一个能够做到这一点的网站。非常...
pythonimport gymenv = gym.make('CartPole-v0')for i_episode in range(20):observation = env.reset()for t in range(100):env.render()print(observation)action = env.action_space.sample()observation, reward, done, info = env.step(action)if done:print("Episode finished after {} timesteps"....