Nash Q-Learning算法是将Minimax-Q算法从零和博弈扩展到多人一般和博弈的算法。在Minimax-Q算法中需要通过Minimax线性规划求解阶段博弈的纳什均衡点,拓展到Nash Q-Learning算法就是使用二次规划求解纳什均衡点,具体求解方法后面单独开一章讲解。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点...
Nash Q-Learning算法 是将Minimax-Q算法扩展到多人一般和博弈场景。它使用二次规划求解纳什均衡点,适用于合作或对抗环境。然而,算法的收敛性依赖于每个状态的阶段博弈中存在全局最优点或鞍点,这在实际应用中可能不易满足。Friend-or-Foe Q-Learning算法(FFQ) 则是Minimax-Q算法的进一步拓展,旨在处理...
然而,Nash Q-Learning则将我们带入更广阔的博弈领域,它追求全局最优点,但代价是计算上的高昂成本,每一步都需要对所有可能的策略进行评估。为了简化这个过程,Friend-or-Foe Q-Learning应运而生,它巧妙地将一般博弈转化为零和形式,使得每个智能体可以独立学习,但行动更新仍然依赖于对手的策略。FFQ和...
Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点,其收敛性条件是,在每一个状态s的阶段博弈中,都能够找到一个全局最优点或者鞍点,只有满足这个条件,Nash Q-Learning算法才能够收敛。与Minimax-Q算法相同,Nash Q-Learning算法求解二次规划的过程也非常耗时,降低了算法的学习速度。