sft_trainer是RLHF的第一步,当然这一步并不一定要使用trl来完成(大量的诸如instruction tuning等都属于sft的范畴,也有丰富的实现),不过为保证本系列的完整性并对RLHF的过程有清晰阐述,这里还是对sft进行一些详细解读。 二、sft_trainer使用示例:examples/scripts/sft.py 2.0 ScriptArguments参数类 对于hf_transformers...