一、数据集与模型:PKU-SafeRLHF 1. 开源迄今为止最大的多轮 RLHF 数据集,规模达到 100 万条。 2. 开源经 Safe-RLHF 对齐训练得到的 7B 参数的语言模型 ——Beaver,并支持在线部署。 3. 开源了预训练的 Reward Model 和 Cost Model 的模型...
一、数据集与模型:PKU-SafeRLHF 1. 开源迄今为止最大的多轮 RLHF 数据集,规模达到 100 万条。 2. 开源经 Safe-RLHF 对齐训练得到的 7B 参数的语言模型 ——Beaver,并支持在线部署。 3. 开源了预训练的 Reward Model 和 Cost Model 的模型和参数。 二、首个可复现的 RLHF 基准,PKU-Alignment/safe-rl...
一、数据集与模型:PKU-SafeRLHF 1. 开源迄今为止最大的多轮 RLHF 数据集,规模达到 100 万条。 2. 开源经 Safe-RLHF 对齐训练得到的 7B 参数的语言模型 ——Beaver,并支持在线部署。 3. 开源了预训练的 Reward Model 和 Cost Model 的模型和参数。 二、首个可复现的 RLHF 基准,PKU-Alignment/safe-rl...
第25期料见闭门分享会,我“门”非常开心邀请到PKU-Beaver开源项目团队成员——北京大学人工智能研究院助理教授 杨耀东 老师、北京大学在读博士生 吉嘉铭,来与大家分享项目介绍、近期情况,并与线上同学进行QA交流互动。 本次开源SafeRLHF第一轮的20k数据集,如需使用完整数据集,欢迎扫描下方二维码填写申请表。 在活动...
🔥2023/07/10:We extend the open-source safety preference dataset,PKU-Alignment/PKU-SafeRLHF, which now contains over 300k examples. (See also sectionPKU-SafeRLHF-Dataset) ⚙2023/07/05:We enhanced our support for Chinese pre-training models and incorporated additional open-source Chinese datase...
RewardModel-7B:PKU-Alignment/beaver-7b-v1.0-reward CostModel-7B:PKU-Alignment/beaver-7b-v1.0-cost 🔥2023/07/10:We extend the open-source safety preference dataset,PKU-Alignment/PKU-SafeRLHF, which now contains over 300k examples. (See also sectionPKU-SafeRLHF-Dataset) ...
CostModel-7B:PKU-Alignment/beaver-7b-v1.0-cost 🔥2023/07/10:We extend the open-source safety preference dataset,PKU-Alignment/PKU-SafeRLHF, which now contains over 300k examples. (See also sectionPKU-SafeRLHF-Dataset) ⚙2023/07/05:We enhanced our support for Chinese pre-training models ...
本次开源将开源 Safe-RLHF 第一轮的 10K 数据集, Hugging Face 开源地址如下:https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K 如需使用完整的数据集,请填写相关申请:https://forms.gle/6X2PNYPboHGRJwhd9 安全强化学习 在强化学习中,智能体通过探索和利用来学习最优控制策略。然而,在训练初期...
二、首个可复现的 RLHF 基准,PKU-Alignment/safe-rlhf 支持以下功能:1. 支持 LLM 模型的 SFT(Supervised Fine-Tuning)、RLHF 训练、Safe RLHF 训练。支持目前主流的预训练模型如 LLaMA、OPT 等模型的训练。2. 支持 Reward Model 和 Cost Model 训练。3. 提供安全约束满足的多尺度验证方式,支持 BIG-bench、...
1)数据集与模型:PKU-SafeRLHF 1.开源迄今为止最大的多轮 RLHF 数据集,规模达到 100 万条。 2.开源经Safe-RLHF对齐训练得到的 7B 参数的语言模型——Beaver,并支持在线部署。 3.开源了预训练的Reward Model和Cost Model的模型和参数。 2) 首个可复现的RLHF基准,PKU-Alignment/safe-rlhf支持以下功能: ...