并将 PPO-max 算法后续将接入此前开源的 MOSS 模型,作为 “MOSS-RLHF” 模型发布,并提供中英文奖励模型、开源代码和训练步骤。在项目开源仓库中开发者可在仓库中获取基于 openChineseLlama 的 7B 中文奖励模型、基于 Llama-7B 的 7B 英语奖励模型,以及用于大型语言模型中的强化学习训练的开源代码。 获取资源: htt...