离线学习:通过经验回放,DDPG支持离线学习,可以在多次的训练过程中不断积累经验。 缺点 高计算开销:DDPG需要训练两个网络(演员和评论员),并且依赖于目标网络和经验回放池,这增加了训练的复杂性和计算开销。 需要大量的数据:由于DDPG基于策略梯度,通常需要大量的训练数据才能稳定收敛。 6. DDPG代码实现 下面是一个简化的DDPG