Twin Delayed DDPG(TD3) “双”“延迟”深度确定性策略网络 DDPG(Deep Deterministic Policy Gradient) 离散动作 v.s. 连续动作 动作空间的可数性,很好理解。例如,离散:只有上下左右四个动作;连续:方向盘转多少度 随机策略 v.s. 确定性策略 对随机性的策略来说,输入某一个状态 s,采取某一个 action 的可能性...
mario是属于离散型动作空间,所以要使用DDPG,需要将处理的动作离散化 具体可以看 这个博客·http://t.csdnimg.cn/PemKJ 二、源码-处理连续动作代码 源码是来自这个博主的 DDPG处理连续型动作空间-单摆 ps:安装好视频下面的环境要求 【[重置版]强化学习系列教程8:DDPG 算法 实现单摆的控制 || A2C算法变种】https:...
DDPG是一种深度确定性的策略梯度算法,它是为了解决连续动作控制问题而提出的算法。以前学习的Q-learning算法、Sarsa算法以及DQN算法针对的动作空间都是离散的,DDPG就是对DQN算法的扩展,主要就是让DQN能够解决连续动作控制的问题而提出的。从Q-learning到DQN,只是将状态动作的评估函数从离散空间用神经网络映射到了连续空间...
为了解决这个问题:一,算法方面,不同奖励加存在连续动作空间不适合用qmix,所以首先试试maddpg。二,代码方面,智能体是异构的,考虑同类智能体parameter sharing,不同类智能体相互独立,所以现有代码框架不适用,得魔改。三,训练方面,两套智能体参数,如果把ddpg换成sac或td3需要训练的参数就更多了,一来训练时间必然非常久...