Q-learning收敛性证明 mzzk 16 人赞同了该文章 (看到没人写我来写一下具体证明过程) Q-learning的证明要从随机逼近的理论上说起: 随机逼近理论 L 是关于 θ 的算子, θ 在t+1 次更新的第 i 个分量满足下式,其它分量不更新。 θt+1(i)←(1−αt(i))θt(i)+αt(i)[(Lθ)(i)+ηt(i)]...
总体来说,Q-learning是一个非常勇敢的策略,在有限动作和有限状态情况下,它能够收敛找到全局最优策略。
4 从Value Iteration到Q-learning 我们知道value iteration是在知道环境,也就是根据当前状态和动作可以预...
Q-learning update的max/min operator的消除是很关键的第一步,构造出一个类似于contraction mapping的形...
这个证明挺简洁的。核心就是把Q-learning变形成Theorem 2中的随机过程的形式,然后验证这种形式的Q-...
Q-learning离散形式的收敛性证明有非常强的参考价值。对于一般的提出新的值函数更新方式的算法的收敛性,...