TD3(Twin Delayed Deep Deterministic policy gradient algorithm,双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。 其中的Deep Deterministic policy gradient,也就是DDPG算法,因此TD3其实就是DDPG的一个优化版本。 具体的优化主要是以下三个方面,理解了这些优化基本上也就可以理解TD3算法了。 3.1 双网...
其中的Deep Deterministic policy gradient,也就是DDPG算法,因此TD3其实就是DDPG的一个优化版本。 具体的优化主要是以下三个方面,理解了这些优化基本上也就可以理解TD3算法了。 3.1 双网络 让我们首先看一下DDPG的网络结构图如下: 其中Actor用于将不同的state映射为对应的action,即决策在不同的state下应该采取什么...