本文介绍一种最优化驱动的基于原始-对偶混合梯度下降方法的完全去中心化 MARL 算法框架 F2A2(如图1所示),有效实现了智能体的独立学习和分布式控制。值得注意的是,该框架联合优化策略改进和价值评估两个子问题,从而增强多智能体的策略学习过程的稳健性,并在大规模场景下具备良好的扩展性,同时采用了基于心智理论的新颖智...