强化学习诚意之作 这本《Easy RL:强化学习教程》共13章,大体上可分为两个部分:第一部分包括第 1 ~ 3 章,介绍强化学习基础知识以及传统强化学习算法。第二部分包括第 4 ~ 13 章,介绍深度强化学习算法及其常见问题的解决方法。第二部分各章相对独立,可根据自己的兴趣选择性阅读。 这本书的主... (展开) ...
周博磊老师的“强化学习纲要”课程理论 严谨、内容丰富, 全面地介绍了强化学习领域, 并且有相关的代码实践。李科浇 老师是飞桨强化学习 PARL 团队核心成员,百度高级研发工程师,其所在团队曾 两度夺得 NeurIPS 强化学习赛事冠军。李科浇老师的“百度强化学习”实战性强, 通过大量的代码来讲解强化学习。经过笔者不完全统...
1.1.1 强化学习与监督学习 1.1.2 强化学习的例子 1.1.3 强化学习的历史 1.1.4 强化学习的应用 ··· (更多) 原文摘录 ··· 强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎 么在复杂、不确定的环境(environment)里面去最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体...
强化学习(Reinforcement learning,RL):让智能体(agent)怎么在复杂、不确定的环境(environment)里面去最大化它能获得的奖励的一种工具方法。 深度强化学习(Deep Reinforcement Learning):不需要手动设计特征,仅需要输入状态就可以让系统直接输出动作的一个端到端(end-to-end)的强化学习方法。通常使用神经网络来拟合价值函...
这个交互过程可以通过马尔可夫决策过程来表示, 所以马尔可夫决策过程是强化学习的基本框架。 在马尔 可夫决策过程中,它的环境是全部可观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成马尔可夫决策过程的问题。 2.1 马尔可夫过程 2.1.1 马尔可夫性质 在随机过程中,马尔可夫性质(Markov ...
开源电子书《蘑菇书EasyRL》,强化学习中文教程 http://t.cn/A6Q6heGk “李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通...
第11章 模仿学习 模仿学习(imitation learning,IL)又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习。 11.1 行为克隆 行为克隆与监...
强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作(action),这个动作也称为决策(...
而江季对强化学习也有较深的理解,有丰富的强化学习研究经历并发表过顶级会议论文和获得过相关专利。杨毅远与江季的加入让教程的创作焕发出了新的生机。通过不懈的努力,我们在GitHub上发布线上教程“Easy-RL”,分享给强化学习的初学者。截至目前,该教程获得了3000多的Git Hub Star。 为了更好地优化教程,我们尝试...