DDPG(Deep Deterministic Policy Gradient) 离散动作 v.s. 连续动作 动作空间的可数性,很好理解。例如,离散:只有上下左右四个动作;连续:方向盘转多少度 随机策略 v.s. 确定性策略 对随机性的策略来说,输入某一个状态 s,采取某一个 action 的可能性并不是百分之百,而是有一个概率 P 的,就好像抽奖一样,根据...
mario是属于离散型动作空间,所以要使用DDPG,需要将处理的动作离散化 具体可以看 这个博客·http://t.csdnimg.cn/PemKJ 二、源码-处理连续动作代码 源码是来自这个博主的 DDPG处理连续型动作空间-单摆 ps:安装好视频下面的环境要求 【[重置版]强化学习系列教程8:DDPG 算法 实现单摆的控制 || A2C算法变种】https:...
DDPG是一种深度确定性的策略梯度算法,它是为了解决连续动作控制问题而提出的算法。以前学习的Q-learning算法、Sarsa算法以及DQN算法针对的动作空间都是离散的,DDPG就是对DQN算法的扩展,主要就是让DQN能够解决连续动作控制的问题而提出的。从Q-learning到DQN,只是将状态动作的评估函数从离散空间用神经网络映射到了连续空间...
建议看一下这个,DDPG是可以解决连续控制问题的。
ddpg算法使用软更新以保证训练更加稳定。 二.输出动作 2.1连续型动作 一定的动作空间内,当前时间步与下一时间步的动作取值具有相关性。汽车的方向盘角度,油门,刹车等控制信号就属于连续动作。 2.2离散型动作 一定的动作空间内,动作可选值处于离散动作变量域,比如围棋的落子点。
一,算法方面,不同奖励加存在连续动作空间不适合用qmix,所以首先试试maddpg。二,代码方面,智能体是异构的,考虑同类智能体parameter sharing,不同类智能体相互独立,所以现有代码框架不适用,得魔改。三,训练方面,两套智能体参数,如果把ddpg换成sac或td3需要训练的参数就更多了,一来训练时间必然非常久,二来智能体之间...