Nash Q-Learning算法是将Minimax-Q算法从零和博弈扩展到多人一般和博弈的算法。在Minimax-Q算法中需要通过Minimax线性规划求解阶段博弈的纳什均衡点,拓展到Nash Q-Learning算法就是使用二次规划求解纳什均衡点,具体求解方法后面单独开一章讲解。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点...
Nash Q-Learning算法 是将Minimax-Q算法扩展到多人一般和博弈场景。它使用二次规划求解纳什均衡点,适用于合作或对抗环境。然而,算法的收敛性依赖于每个状态的阶段博弈中存在全局最优点或鞍点,这在实际应用中可能不易满足。Friend-or-Foe Q-Learning算法(FFQ) 则是Minimax-Q算法的进一步拓展,旨在处理...
首先,让我们聚焦于Minimax-Q算法,它专为零和博弈设计,但其背后隐藏着计算复杂性和对对手独立性的依赖。这就像一场零和游戏中,一方的胜利建立在另一方的损失之上,挑战在于如何在有限的计算资源下,找到最佳策略。然而,Nash Q-Learning则将我们带入更广阔的博弈领域,它追求全局最优点,但代价是计算...
Nash Q-Learning算法是将Minimax-Q算法从零和博弈扩展到多人一般和博弈的算法。在Minimax-Q算法中需要通过Minimax线性规划求解阶段博弈的纳什均衡点,拓展到Nash Q-Learning算法就是使用二次规划求解纳什均衡点。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点,其收敛性条件是,在每一个状态...