而Sarsa的更新公式似乎和贝尔曼方程并不是一一对应的: Q(s,a)←Q(s,a)+α[R+γQ(S′,A′)−Q(S,A)] 一些自己的理解: 我们知道,蒙特卡洛算法的更新公式是如下的: V(st)=1N∑i=1NGti 其中Gti 代表第i次在 st 采样的长期累积奖励和 ,这个公式是基于统计学的。 考虑到递推公式 我们可以将蒙特...