代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。 功能: RLHF数据格式的定义和使用√ 只用RLHF就对模型进行了微调√ 让模型认主√ 修改自我认知钢印 主人的姓名 Robot的昵称 batch 化生成多个不同的prompt,再同时RLHF× 安装环境 安装环境参照提取的requirement.txt,主要是torch, transformers ...
@awnihannun转发:酷炫的新项目:mlx-rlhf来自@andrewsilva9,可以在MLX中使用RLHF对LLMs进行本地微调。适用于软提示和LoRA微调。
王小惟 Weixun 专注强化学习(RL)知识输出,RL4LLM探索者 和朋友/同事讨论过rlhf全量/部分微调的差异,最终也不了了之,随了大流常用全量。这paper实验大致说rm训练lora效果选好dim比全量好,rl部分("REINFORCE for Language Models" )全量更好。 发布于 2024-03-19 21:09・IP 属地浙江 赞同15 分享...
讲一下LoRA。为什么LoRA模块可以用SVD近似? 2. llm微调经历。 3. 增量预训练和预训练的区别? 4. deepspeed的ZeRO2是什么? 5. rlhf对齐经历(此处无,但讲了一个rl项目)。 6. temperature的作用?在对比学习中发挥什么作用? 7. 手撕代码部分是写一个文本分类模型的整体训练流程。 . 2️⃣ 复试 . 60分钟...