我的实验结果(图1)表明,还是MADDPG最初提出的更新方式最好,其实dpg也差不多,cpg是真不行.......我跑facmac的时候曲线也是长这样,先上升再下降再上升,大概就是这里策略更新的问题吧。另外还想浅浅地吐槽下FACMAC这篇论文,论文里用的超参数和代码里不一样,而且除了QMIX算法,其他的都用了Adam和TD(lambda).........