DPG是一种确定性策略梯度算法,是比较早发出来的确定性算法,也是DDPG的基础。 1. 研究背景 随机策略梯度的局限性:在连续动作空间中,随机策略梯度(如 REINFORCE)需对动作空间积分,导致高方差和计算低效,尤其在高维动作空间中表现不佳。 确定性策略的潜力:直接优化确定性策略(如控制领域的微分控制器)可避免
我的实验结果(图1)表明,还是MADDPG最初提出的更新方式最好,其实dpg也差不多,cpg是真不行...我跑facmac的时候曲线也是长这样,先上升再下降再上升,大概就是这里策略更新的问题吧。另外还想浅浅地吐槽下FACMAC这篇论文,论文里用的超参数和代码里不一样,而且除了QMIX算法,其他的都用了Adam和TD(lambda)... +5...