3-Qlearning算法实例解读.mp4是【迪哥谈AI】大模型必备的强化学习教程来了!绝对是2023年讲的最好的强化学习零基础入门到精通完整版教程(含实战源码)的第24集视频,该合集共计46集,视频收藏或关注UP主,及时了解更多相关视频内容。
首先,需要知道Q表和其更新公式 Q表,定义了状态(state)和行为(action) Q表更新,Q(s1,a2)=Q(s1,a2)+lrdiff,diff(差距)=现实-估计=R+rmaxQ(s2)-Q(s1,a2) 然后,算法工作流程是: 按照Q表或随机选择当前状态下的行为 然后经过这个行为后,获取环境的反馈(下一个状态和收益reward) 然后进行Q表更新 2 一维...
然后创建Q-learning算法类(或者称这个类为一个Agent): class QLearning: #Agent def __init__(self, actions, q_table=None, learning_rate=0.01, discount_factor=0.9, e_greedy=0.1): self.actions = actions # action 列表 self.lr = learning_rate # 学习速率 self.gamma = discount_factor # 折扣因...