摘要 在传统的Q-学习算法上,提出了一种改进算法ε-Q-Learning,并应用到路径规划中。引入了动态搜索因子,其根据环境的反馈来动态调整贪婪因子ε,如果一次从起点到终点的探索失败,则通过增大ε来使下一次探索的随机性增大,以...展开更多 Traditional Q-Learning algorithm has the problems of too many random ...
Learning Algorithm Research Candidate:Ma PengWei Supervisor:Pan DiLin School of Computer Science and Technology AnHui University of Science and Technology No.1 68,Shungeng Road,Huainan,23200 1,P.R.CHINA ) 万方数据 ( 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 ...
2、在对移动机器人进行路径规划前,需要根据其工作环境构建车间电子地图。栅格法是常用的构建电子地图的方法之一。但在栅格环境下q-learning算法规划的路径经过障碍物临界的顶点。然而在实际情况中,移动机器人在行驶过程中需要与障碍物具有一定的安全移动距离。且规划好的路径存在多处转弯尖点,当移动机器人行驶到转弯尖点...
方法中的奖励值并不是固定的,而是根据状态而变化.将改进的模糊Q学习方法应 用到Robotup仿真环境中,使智能体通 过在线学习获得跑位技巧.并通过实验证明厂该方法的有效性 关键词:多智能体系统;增强学习;模糊推理系统 中图分类号:TP249文献标识码:A ModifiedFuzzyQ——learningMethodandItsApplicationinRoboCup ...
UASNs中基于Q-learning的多AUV协作数据收集算法 本发明公开了一种UASNs中基于Qlearning的多AUV协作数据收集算法,包括如下步骤:按照一定条件挑选簇头,其他节点自适应就近加入簇头,形成节点簇;基于改进合同网算法进行AUV任务分配;基于Qlearning算法进行路径规划,AUV按照规划的路径完成数据收集.本发明通过... 韩光洁,宫爱妮,...
本课题选用强化学习算法中经典的Q_learning算法,对原有算法进行改进,提出自己的模型和见解,引入启发式奖赏函数,将改进算法应用与路径规划,并通过实验仿真验证了算法的有效性。一、文章介绍了强化学习的发展历史,并对国内外的研究现状做以介绍,指出强化学习现阶段中存在主要问题,简单介绍了本文的主要内容以及章节框架。二...