前言: 最近写了一个multi-discrete的PPO算法,但苦于没有合适的环境进行测试,所以自己将"BipedalWalker-v3"改造成多维离散动作版本的,代码如下: importgymimportnumpyasnpclassWalker(gym.Env):def__init__(self,bins=20):self.env=gym.make("BipedalWalker-v3")self.env=gym.wrappers.RecordEpisodeStatistics(self....