对于一个落地应用来说,往往能按照功能分为多个模块(包括一个主模块和多个次模块),在实践过程中可以把核心模块中定义为强化学习问题的交给DRL解决,其他模块可以根据自身特点再分别选择各自合适的算法,从而组成一整个决策系统。如下图麻将AI Suphx所示: 当然上述DRL和其他方法分别负责不同子功能模块的方案并不是协同式混...
这种方案借鉴了元强化学习(Meta Reinforcement Learning)的思路,后者致力于学习一类相似任务的通用知识,并在同分布内的陌生任务中通过少量环境交互即可快速适应。
对于一个落地应用来说,往往能按照功能分为多个模块(包括一个主模块和多个次模块),在实践过程中可以把核心模块中定义为强化学习问题的交给DRL解决,其他模块可以根据自身特点再分别选择各自合适的算法,从而组成一整个决策系统。如下图麻将AI Suphx所示: image image 当然上述DRL和其他方法分别负责不同子功能模块的方案并...
本系列是对《深度强化学习落地指南》全书的总结,这本书是我市面上看过对深度强化学习落地讲的最好的一本书,大大拓宽了自己对RL落地思考的维度,形成了强化学习落地分析的一套完整框架,本文内容基本摘自这本书,有兴趣的读者可以自行购买。这次推送的文章比前天推送的加入了自己对RL落地的理解,欢迎留言讨论。 作者对这...
深度强化学习落地指南(博文视点出品) 京东 ¥109.00 去购买 2.1 动作空间设计:这里大有可为 2.1.1 被忽视的价值 关于动作空间的设计容易被大家忽视,因为Agent控制的方式往往在一开始就限制死,正如游戏玩家无法决定DOTA有多少种基本操作,使用者也无法改变一个机器人的关节数量和各自的活动范围。但当有机会让算法...