Exploration vs. Exploitation 的权衡 TD3 是 Deterministic 的 Off-Policy 算法。因为策略是确定性(Deterministic)的,所以会限制 Agent 探索策略空间。为了使 TD3 策略更好地探索,在训练时引入了高斯噪声。如果想获得更高质量的训练数据,也可以在训练过程中减少噪声的规模。 这种情况下, 探索策略空间和训练数据质量,...
DDPG [Deep Deterministic Policy Gradient] Quick facts: off-policy。 只用于连续动作空间。 DDPG可以看做连续动作空间的Q learning。 DDPG courrently learns a Q-function and a policy. DDPG和Q-learning十分相似,都期望能够知道action-value function ,能够在给定state的情况下,得到action。 在离散空间下可以计算...