所示实际上模型学习就是存储,规划就是从存的数据里面拿数据,然后用Q-learning。整个算法好想有点画蛇添足。因为你的模型就是存储的经验,规划方法也是一样的,所以大可把实际经验存起来,然后回放就行了。不过重在强调思想嘛,所有还是值得借鉴。整个Dyna-Q的学习框图如下: 和上图差不多,不多做解释。算法伪代码如下...
在下面框中的Dyna-Q的伪代码算法中, \(Model(s,a)\) 表示状态-动作对 \((s,a)\) 的(预测的下一状态和奖励)的内容。 直接强化学习,模型学习和规划分别通过步骤(d),(e)和(f)实施。如果省略(e)和(f),则剩余算法将是一步表格Q-learning。 表格Dyna-Q 对\(s\in\mathcal{S}\) 和 \(a\in\math...