4.发明目的:本发明所要解决的技术问题是克服现有技术存在的缺陷而提供一种基于epsilon-greedy的深度强化学习动态epsilon的方法,本发明能够依据状态-动作值函数的td-error值来判断该进行探索还是利用并对epsilon的值进行更新,更科学地实现多臂老虎机中奖励最大化,有助于推进强化学习探索利用问题的研究。 5.技术方案:本...
本发明公开了一种基于epsilongreedy的深度强化学习动态epsilon的方法.涉及探索与利用困境领域,步骤:对多臂老虎机的数据进行预处理;根据即时奖励rt+1和平均奖励R平均之差判断是否进行epsilon的更新;利用Dueling DQN算法构建深度强化学习框架;根据行为值函数的TDerror判断此时是进行探索或利用并更新epsilon的值;将经验池中TD...
(74)专利代理机构 南京苏高专利商标事务所(普通合伙) 32204专利代理师 曹坤(51)Int.Cl.G06N 3/08 (2006.01)G06N 20/00 (2019.01)G07F 17/34 (2006.01) (54)发明名称一种基于epsilon-greedy的深度强化学习动态epsilon的方法(57)摘要本发明公开了一种基于epsilon‑greedy的深度强化学习动态epsilon的方法。涉及...
1.一种基于epsilon-greedy的深度强化学习动态epsilon的方法,其特征在于,具体操作步骤如下:(1)、对多臂老虎机的数据进行预处理;(2)、根据即时奖励rt+1和平均奖励r平均之差来判断是否进行epsilon的更新;(3)、利用dueling dqn算法构建深度强化学习框架;(4)、根据行为值函数的td-error来判断此时是进行探索或利用并...