对比MADDPG和DDPG,后者用到了Actor和Critic的两个目标网络,而MADDPG的paper算法描述里,只用到了Actor的目标网络,请问…在更新critic网络参数时,会计算目标Q,计算目标Q需要目标ACTION,都会用到;更新actor网络时,只需要Q值。没有错误。对critic使用目标网络是为了让值函数的回归计算更稳定。想问问楼主明白了吗,我也是不明白这个问题