其中有100次经过S点,经过S点后有4条路径到达最终状态,计算G值和每条路径次数分别如下: 策略A采用平均策略,这时候 V = 5。 现在我们采用策略B,由于策略改变,经过某条路径的概率就会产生变化。因此最终试验经过的次数就不一样了。 最终计算的 V = 7.55。 蒙地卡罗的缺陷 在实际引用中,蒙地卡罗虽然比动态规划消耗要...