马尔可夫决策过程(MDP)用数学形式规范化了强化学习问题,其中agent(通常翻译为智能体,在之后就直接用英文表示)指的是需要学习模块(learner)和策略决策模块(decision maker),而与agent模块交互的独立模块称为是environment(环境)。在agent与environment交互过程中,agent是动作决策者,environment会对agent的动作做出反应,environm...
MDP和agent产生的一列轨迹可以记录为: 在有限 MDP 中, 状态、操作和奖励集 (S、A 、 R) 都有有限数量的元素。在这种情况下, 随机变量 Rt 和 St 已经被定义了离散概率分布, 他们只依赖于前面的状state和action。表示如下: 我们假设强化学习的state具有马尔克夫性,从式3.2和式3.3中,我们不难计算出状态转移概...