Q-learning更新公式 基础概念 Q(St,At)=Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]Q(S_{t},A_{t})=Q(S_{t},A_{t})+\alpha[R_{t+1}+\gamma \mathop{max}_{a} Q(S_{t+1},a)-Q(S_{t},A_{t})] Q(St,At)=Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,...
因此我们的公式可以写成: VN(st)=VN−1(st)+1Nt(R+γQ(st+1,at+1)−VN−1(st)) 由于推导的时候写 V(st) 了,其实我们将 V(st) 替换成 Q(s,a) 也是没问题的 即得到我们Sarsa的更新公式: 同理,Q-learning亦是如此 最后 如有错误,不吝赐教 ...