SFT数据集不是特别大的情况下,建议设置较小学习率,一般设置为pre-train阶段学习率的0.1左右,如在pre-train阶段的学习率为9e-5,则SFT学习率设置为9e-6。在10万SFT样本上,采用与pre-train一样的学习率,发现loss一直不收敛,在调低学习率至原来0.1之后,loss在两个epoch之后就收敛。 b.warmup_ratio 通常pre-trai...
但其实BF本质上是一种Trick,虽然长度增加是一种和Best-of-N、树搜索等Parallel Scaling对应的Sequential Scaling,但BF增加长度的方法有点粗暴——直接硬控输出过程。不过它倒是不失为一种工程推理方案,毕竟很多问题不需要思考那么久。 小结 这两篇论文都验证了少量高质量数据SFT可以激活LLM的推理能力。但是我们开头也...
同时在RLHF框架里面,使用拒绝采样微调一是可以用来更新SFT模型的效果,对于ppo算法来说,往往需要保证旧的策略和新的策略分布差距比较小,所以这里提高PPO启动的SFT模型效果对于PPO算法本身来说也很重要,其次还可以利用拒绝采样的样本微调来迭代旧的奖励模型,加强模型的奖励。这个对于提高PPO最终效果和迭代也十分重要。同时针...
LLM-SFT-trick 齐思用户 Invalid Date 写了一条评论 -微调使用现有知识调整模型以提高特定任务的性能。 -它通常用于简单的任务,如垃圾邮件过滤或分类。 -检索增强生成通过合并文档中的相关信息来增强响应。 -以数据为中心的微调为预先训练的模型添加了一个层,新的数据用于特定任务的一致性。 -微调的好处包括更高的...
精调trick:学习一些精调技巧,比如CPT、SFT、RLHF等。 RAG:了解基于知识库的问答系统。 Agent:探索智能体训练,包括workflow定义、tools构建等。 DiT:最后,了解一下miniGPT4,这是最新的一些进展。 进阶路径: CPT、SFT、RLHF、MoE、QLoRA、RAG、Agent:这些是更高级的技术,需要一定的基础。
这个过程要往往要积攒一些经验,学会一些小 trick: 让pretrain 模型去续写,来判断某个能力或某个知识是模型压根没有,还是说被自己训没了; 观察某个 token 的概率; 观察模型在第几个 token开始回答错误的; 如果模型的 pattern输出错误,比如没有按照 json 输出,看一下是不会 json,还是不知道该出 json,可以把**...
Step-by-step reasoning:通过思维链(chain-of-thought)提示策略,即把大任务分解成一步一步小任务,让模型think step by step得到最终答案。 LLM的关键技术 Scaling:更多的模型参数、数据量和训练计算,可以有效提升模型效果。 Training:分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立...
由于PPO优化过程存在诸多trick,如Reward normalization,Reward whitening,KL term clamping 以及 Adaptive KL coefficient。当使用这些trick时,step-level-reward的计算不准确,所以,我们需要使用。(当然,如果有消融实验,对比 step-level-reward 和的结果,对...
影响LLM业务效果的因素比小模型更复杂:基座模型、Prompt工程、SFT数据、训练的Trick,优化哪个是最有效的? 在垂直领域,单纯依靠无Finetune Prompting无法满足业务效果,我们需要进行一定程度SFT的前提下,我们发现SFT在LLM上极容易过拟合。那么此时基座的能力和SFT任务的关系是什么?我们是应该选择“能力更好的基座”还是“更...
这里有个Trick可以缓解这个问题——进一步增加高概率词的可能性,降低低概率词的可能性。这样就不太容易随机到很低概率(很可能不连贯)的生成。具体的做法是用过一个temperature的参数调整输出的概率分布,这个参数值越大,分布就看起来越平滑,也就是高概率和低概率的差距拉小了(对输出不那么确定);当然越小的话,高...