我的实验结果(图1)表明,还是MADDPG最初提出的更新方式最好,其实dpg也差不多,cpg是真不行...我跑facmac的时候曲线也是长这样,先上升再下降再上升,大概就是这里策略更新的问题吧。另外还想浅浅地吐槽下FACMAC这篇论文,论文里用的超参数和代码里不一样,而且除了QMIX算法,其他的都用了Adam和TD(lambda)... +5...
MAPPO论文对于我刚刚所提问题的解释:MADDPG将obs堆叠起来构造state,当智能体数目增大时,critic的输入维度会不断增大,导致训练难度增加,一种更好的方式是设计agent-specific global state,实验表明这样性能更好。启示:设计合理的强化学习要素(状态、观测、动作、奖励)或许比选择算法或者调参更为重要。