笔者因此想实践RLHF流程,验证ppo算法是否确实能让模型得到比较大的性能提升,但是在实验过程发现目前公开的可以用来训练偏好模型(奖励模型)的中文数据几乎是没有的,而目前开源的数据基本都是英文。anthropic公司开源了他们论文的hh-rlhf数据集(helpluf 和harmless) ,并且这个数据也被很多工作用到比如llama2也有提到。所以...