可以发现,核心的区别在于Belief MDP里是对观测量求和,MDP则是对状态量求和。在MDP里面,当前状态是确定的,动作也是确定的,但是下一步的状态是不确定的,因此求和的是值函数相对于状态的期望。在Belief MDP里,当前Belief State是确定的,动作是确定的,但是获取到的观测是不确定的,因此求和
可以发现,核心的区别在于Belief MDP里是对观测量求和,MDP则是对状态量求和。
有一种比较粗略的解释就是,MDP是基于MC过程之上赋以“controlled decision mechanism”,而POMDP可以理解...
部分可观测 是指系统的状态不能完全被观测到,只能通过观测到的一部分信息来推断系统的状态。这种情况通...
自动驾驶决策领域绕不开的就是不确定性的处理,而POMDP恰恰是不确定环境下决策问题的一种经典的建模方式...