LLM-SFT-trick 齐思用户 Invalid Date 写了一条评论 -微调使用现有知识调整模型以提高特定任务的性能。 -它通常用于简单的任务,如垃圾邮件过滤或分类。 -检索增强生成通过合并文档中的相关信息来增强响应。 -以数据为中心的微调为预先训练的模型添加了一个层,新的数据用于特定任务的一致性。 -微调的好处包括更高的...
SFT数据集不是特别大的情况下,建议设置较小学习率,一般设置为pre-train阶段学习率的0.1左右,如在pre-train阶段的学习率为9e-5,则SFT学习率设置为9e-6。在10万SFT样本上,采用与pre-train一样的学习率,发现loss一直不收敛,在调低学习率至原来0.1之后,loss在两个epoch之后就收敛。 b.warmup_ratio 通常pre-trai...
同时在RLHF框架里面,使用拒绝采样微调一是可以用来更新SFT模型的效果,对于ppo算法来说,往往需要保证旧的策略和新的策略分布差距比较小,所以这里提高PPO启动的SFT模型效果对于PPO算法本身来说也很重要,其次还可以利用拒绝采样的样本微调来迭代旧的奖励模型,加强模型的奖励。这个对于提高PPO最终效果和迭代也十分重要。同时针...
同时在RLHF框架里面,使用拒绝采样微调一是可以用来更新SFT模型的效果,对于ppo算法来说,往往需要保证旧的策略和新的策略分布差距比较小,所以这里提高PPO启动的SFT模型效果对于PPO算法本身来说也很重要,其次还可以利用拒绝采样的样本微调来迭代旧的奖励模型,加强模型的奖励。这个对于提高PPO最终效果和迭代也十分重要。同时针...
精调trick:学习一些精调技巧,比如CPT、SFT、RLHF等。 RAG:了解基于知识库的问答系统。 Agent:探索智能体训练,包括workflow定义、tools构建等。 DiT:最后,了解一下miniGPT4,这是最新的一些进展。 进阶路径: CPT、SFT、RLHF、MoE、QLoRA、RAG、Agent:这些是更高级的技术,需要一定的基础。
这个过程要往往要积攒一些经验,学会一些小 trick: 让pretrain 模型去续写,来判断某个能力或某个知识是模型压根没有,还是说被自己训没了; 观察某个 token 的概率; 观察模型在第几个 token开始回答错误的; 如果模型的 pattern输出错误,比如没有按照 json 输出,看一下是不会 json,还是不知道该出 json,可以把**...
这里有个Trick可以缓解这个问题——进一步增加高概率词的可能性,降低低概率词的可能性。这样就不太容易随机到很低概率(很可能不连贯)的生成。具体的做法是用过一个temperature的参数调整输出的概率分布,这个参数值越大,分布就看起来越平滑,也就是高概率和低概率的差距拉小了(对输出不那么确定);当然越小的话,高...
🚀 进阶系列 掌握CPT、SFT、RLHF、MoE、QLoRA、RAG、Agent等技术 了解MQA、GQA、FlashAttention、PageAttention、RWKV、Attention变种加速方法 掌握通用模型评估、行业模型评估、幻觉缓解、无损超长上下文、量化蒸馏等技术 熟悉分布式训练、卡间通信优化、算子融合、多模态、知识围栏等概念💻 计算资源...
大模型 SFT Trick 篇 一、常见 SFT的开发流程是如何的? 二、训练数据要注重什么? 三、大 size 和小 size 模型的选择? 四、多任务训练时怎么确保每个任务都优秀? 五、SFT真的不能学到知识? 六、怎么科学挑选数据集? ... 点击查看答案 大模型(LLMs)训练经验帖 分布式训练框架选择? LLMs 训练时 有哪些...
第一,费卡。假设你训llama 7b,SFT 和 RM 都用7B的模型,那么显存耗费 = 2*7B(TRIAN MODE) + *7B(EVAL MODE), 分别对应 policy model / critic model,还有ref model/reward model 本来你能用几张40GB A100的卡+deepspeed 做7b的全参数微调,强化学习就得升级到80GB的A100了,勉勉强强能跑到7B。想跑更大...