bipedalwalker-v3+ddpg

2025-01-11 09:57:14

拼音 [ 拼音 ]

BipedalWalkerHardcore_v3游戏下基于TD3的强化学习 - 知乎

TD3(Twin Delayed Deep Deterministic policy gradient algorithm,双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。其中的Deep Deterministic policy gradient,也就是DDPG算法,因此TD3其实就是DDPG的一个优化版本。具体的优化主要是以下三个方面,理解了这些优化基本上也就可以理解TD3算法了。 3.1 双网...
BipedalWalkerHardcore_v3游戏下基于TD3的强化学习 - 飞桨AI Studio

其中的Deep Deterministic policy gradient,也就是DDPG算法,因此TD3其实就是DDPG的一个优化版本。具体的优化主要是以下三个方面,理解了这些优化基本上也就可以理解TD3算法了。 3.1 双网络让我们首先看一下DDPG的网络结构图如下: 其中Actor用于将不同的state映射为对应的action,即决策在不同的state下应该采取什么...