简单直观: Q-learning易于理解和实现。 离线学习: 可以离线学习,更新Q值不受实时影响。 1.2.2 缺点: 不适用于连续动作和状态空间: 对于连续动作和状态空间的问题效果较差。 不处理延迟奖励: 对于延迟奖励问题表现不佳。 第二部分:SARSA 2.1 SARSA简介 SARSA(State-Action-Reward-State-Action)是一种基于状态-动作...
Q-Learning算法有一些缺点,比如状态和动作都假设是离散且有限的,对于复杂的情况处理起来会很麻烦;智能体的决策只依赖当前环境的状态,所以如果状态之间存在时序关联那么学习的效果就不佳。 更多文章请关注公重号:汀丶人工智能
(2)Q-learning存在过高估计的问题。因为Q-learning在更新Q函数的时候使用的是下一时刻最优值对应的act...
缺点:action space 要是离散的且维数不能太高,得到的策略是确定性的, 用非线性的近似比如神经网络的...
Q-learning是另一值函数近似算法,由Watkins在1989年提出,结合了蒙特卡洛和时差分法。它假设状态和动作是有限的,通过Q表记录每种状态和动作的价值。智能体根据当前状态选择Q值最大的动作。Q-learning适用于模拟环境或迭代快速的场景,但可能在处理时序关联状态时效果不佳。
1.3 优缺点 SARSA 算法经常与Q-learning 算法作比较,以便探索出两种算法分别适用的情况。它们互有利弊。 与SARSA相比,Q-learning具有以下优点和缺点: Q-learning直接学习最优策略,而SARSA在探索时学会了近乎最优的策略。 Q-learning具有比SARSA更高的每样本方差,并且可能因此产生收敛问题。当通过Q-learning训练神经网络...
与SARSA相比,Q-learning具有以下优点和缺点: Q-learning直接学习最优策略,而SARSA在探索时学会了近乎最优的策略。 Q-learning具有比SARSA更高的每样本方差,并且可能因此产生收敛问题。当通过Q-learning训练神经网络时,这会成为一个问题。 SARSA在接近收敛时,允许对探索性的行动进行可能的惩罚,而Q-learning会直接忽略,...
与SARSA相比,Q-learning具有以下优点和缺点: Q-learning直接学习最优策略,而SARSA在探索时学会了近乎最优的策略。 Q-learning具有比SARSA更高的每样本方差,并且可能因此产生收敛问题。当通过Q-learning训练神经网络时,这会成为一个问题。 SARSA在接近收敛时,允许对探索性的行动进行可能的惩罚,而Q-learning会直接忽略,...
与SARSA相比,Q-learning具有以下优点和缺点: Q-learning直接学习最优策略,而SARSA在探索时学会了近乎最优的策略。 Q-learning具有比SARSA更高的每样本方差,并且可能因此产生收敛问题。当通过Q-learning训练神经网络时,这会成为一个问题。 SARSA在接近收敛时,允许对探索性的行动进行可能的惩罚,而Q-learning会直接忽略,...