学习率是一个非常重要的参数 ,如果学习率设置不当,很容易让你的SFT模型烂掉。SFT数据集不是特别大的情况下,建议设置较小学习率,一般设置为pre-train阶段学习率的0.1左右,如在pre-train阶段的学习率为9e-5,则SFT学习率设置为9e-6。在10万SFT样本上,采用与pre-train一样的学习率,发现loss一直不收敛,在调低学...
LLM-SFT-trick 齐思用户 Invalid Date 写了一条评论 -微调使用现有知识调整模型以提高特定任务的性能。 -它通常用于简单的任务,如垃圾邮件过滤或分类。 -检索增强生成通过合并文档中的相关信息来增强响应。 -以数据为中心的微调为预先训练的模型添加了一个层,新的数据用于特定任务的一致性。 -微调的好处包括更高的...
智元机器人具身智能平行宇宙 | 某年某月某日,M78星云的Jerry看着眼前sft结果又比较烂,在盘算着甩锅给data不够多、trick不够好还是base model太烂,一拍脑袋,大呼:“LLM卷到头了,边际效益太低,赶紧得跑路追逐未来。”他左右盘算,反复翻看 @zhimi 老师的VC报告,感觉具身智能这个概念挺好,感觉一听就像是追逐未来的...