MADDPG(Multi-Agent Deep Deterministic Policy Gradient):MADDPG是一种能处理连续动作空间的算法。它扩展了单智能体的DDPG算法,让每个智能体都有自己的策略网络和Q值网络,同时考虑其他智能体的策略。 通过比较,我们可以看到,IQL较为简单,但可能不会捕捉到多智能体的交互效应;VDN和Qmix通过值函数的分解和组合来考虑多智...