今天,老师给我们讲了一个很有趣的算法,叫做epsilon-greedy算法。它是一种用来帮助我们做决策的办法。它告诉我们在做选择的时候,我们有两个选择,一是选择自己已经知道的最好的方法,二是试着选择一个新的方法。就像我在学校里做作业的时候,遇到不会做的题,我可以选择先做我会的题,也可以试着做一些我不太会的题...
内容提示: (19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202210316971.1(22)申请日 2022.03.29(71)申请人 南京信息工程大学地址 210044 江苏省南京市江北新区宁六路219号(72)发明人 孔燕 曹俊豪 (74)专利代理机构 南京苏高专利商标事务所(普通合伙) 32204专利代理师 曹坤(...
本发明公开了一种基于epsilon‑greedy的深度强化学习动态epsilon的方法。涉及探索与利用困境领域,步骤:对多臂老虎机的数据进行预处理;根据即时奖励rt+1和平均奖励R平均之差判断是否进行epsilon的更新;利用Dueling DQN算法构建深度强化学习框架;根据行为值函数的TD‑error判断此时是进行探索或利用并更新epsilon的值;将经验...
一种基于epsilon-greedy的深度强化学习动态epsilon的方法 1.本发明属于深度强化学习与探索与利用困境问题领域,涉及一种深度强化学习动态epsilon的方法,具体是涉及一种基于epsilon-greedy的深度强化学习动态epsilon的方法。 背景技术: 2.强化学习是在与环境交互过程中不断学习的,而交互中获得的数据质量很大程度上决定了智能...
法,其特征在于,在所述步骤(4)中,根据状态-动作值函数的td-error来判断epslion是否需要进行更新具体是:如td-error大于0则进行利用,如td-error小于0则进行探索,如td-error等于0则让epsilon的值为0.5;故无论是探索或是利用均会动态的更新epsilon的值;其具体的更新公式如下式所示:其中行为值函数的td-error的公式...
本发明公开了一种基于epsilongreedy的深度强化学习动态epsilon的方法.涉及探索与利用困境领域,步骤:对多臂老虎机的数据进行预处理;根据即时奖励rt+1和平均奖励R平均之差判断是否进行epsilon的更新;利用Dueling DQN算法构建深度强化学习框架;根据行为值函数的TDerror判断此时是进行探索或利用并更新epsilon的值;将经验池中TD...