本项目依托于gym库下BipedalWalkerHardcore_v3(双足机器人硬核版)游戏环境,通过TD3算法实现通关。 1. 项目准备 本项目利用AIStudio实现,运行环境如下表。其中gym库建议一致,否则可能会出现找不到BipedalWalkerHardcore_v3的情况。 2. 游戏环境介绍 BipedalWalkerHardcore_v3是一个四关节双足机器人环境,其中有梯子、树桩...
BipedalWalker-v3比BipedalWalkerHardcore-v3简单,该环境没有障碍物,仅需环境学习走路即可。 本文只用到参考文章的trick1, trick2, trick3, 注意trick3的使用需要在conda中查找到当前环境所在路径,再取修改BipedalWalkerHardcore-v3环境。针对BipedalWalkerHardcore-v3环境,本文使用的trick4为导入BipedalWalker-v3环境下训练收敛...
2. 游戏环境介绍 BipedalWalkerHardcore_v3是一个四关节双足机器人环境,其中有梯子、树桩、陷阱等障碍物,在1600个时间步中得到300分即可通关这一环境。在这个环境中,机器人需要与环境不断交互,并最终习得跑步、避障、跳跃、上下台阶等技能,传统的强化学习算法难以胜任这一任务,本项目采用TD3算法最终获得较好的收敛效果...