代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。 功能: RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印 主人的姓名 Robot的昵称 batch 化生成多个不同的prompt,再同时RLHF× 安装环境 安装环境参照提取的requirement.txt,主要是torch, transformers ...
最强开源模型的微调版本来了 | Nous-Hermes 2是Nous Research公司新推出的一款旗舰级LLM,它在RLHF的基础上进行了训练,并且在一系列流行基准测试中击败了Mixtral Instruct。这款模型有两种版本可供选择:SFT-only和SFT+DPO,并且还提供了一个qlora适配器。