【共享LLM前沿】直观理解大模型预训练和微调!P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习微调,代码讲解共计3条视频,包括:大模型项目引入、1-2节 从预训练到微调、怎么理解大模型训练中的RLHF(人类反馈强化学习)?等,UP主更多精彩视频,请关注UP账号。
代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。 功能: RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印 主人的姓名 Robot的昵称 batch 化生成多个不同的prompt,再同时RLHF× 安装环境 安装环境参照提取的requirement.txt,主要是torch, transformers ...
最强开源模型的微调版本来了 | Nous-Hermes 2是Nous Research公司新推出的一款旗舰级LLM,它在RLHF的基础上进行了训练,并且在一系列流行基准测试中击败了Mixtral Instruct。这款模型有两种版本可供选择:SFT-only和SFT+DPO,并且还提供了一个qlora适配器。