快搜汉语词典

首页 > hh-rlhf中文

hh-rlhf中文

2025-05-10 19:09:39

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

LLM大模型训练Trick系列(二)中文hh-rlhf数据集上的ppo实践 - 知乎

笔者因此想实践RLHF流程,验证ppo算法是否确实能让模型得到比较大的性能提升,但是在实验过程发现目前公开的可以用来训练偏好模型(奖励模型)的中文数据几乎是没有的,而目前开源的数据基本都是英文。anthropic公司开源了他们论文的hh-rlhf数据集(helpluf 和harmless) ,并且这个数据也被很多工作用到比如llama2也有提到。所以...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

© 快搜词典

网上黑客追款大户黑客追款正规黑客业务