这是一个系列教程,旨在帮助自己以及读者系统地构建RL知识框架。 回目录页:序章 + 目录一、On-Policy的局限性在之前的章节中,我们已经学习了多种基于策略的强化学习算法,例如策略梯度算法(Policy Gradient, PG…
如果你对大语言模型(LLM)的强化学习(RLHF)感兴趣,又想从最基础的策略梯度优化一路了解、推导出PPO、GAE,再深入探讨DPO,那你就来对地方了。本文将从最基础的Gradient Policy Optimization开始,逐步介绍经典的REINFORCE算法,再讲解如何利用剪切目标实现近端策略优化(PPO),并通过广义优势估计(GAE)在偏差与方差之间找到最...
如果你对大语言模型(LLM)的强化学习(RLHF)感兴趣,又想从最基础的策略梯度优化一路了解、推导出PPO、GAE,再深入探讨DPO,那你就来对地方了。本文将从最基础的Gradient Policy Optimization开始,逐步介绍经典的REINFORCE算法,再讲解如何利用剪切目标实现近端策略优化(PPO),并通过广义优势估计(GAE)在偏差与方差之间找到最...