近端策略优化(PPO)是实现与人类偏好一致的核心算法,但在实际应用中,PPO的性能受到多种因素的影响,虽然之前有工作总结了一些再强化学习领域中必要且有效的技巧,但如何稳定语言模型的RLHF训练仍是未知数。 这篇论文中,研究人员通过实验探索了哪些技巧是比较关键的,哪些指标可以反映RLHF训练过程中和训练后的模型状态,然...