套在我们的prefix tuning上,batchsize这里是1,seq_length是11,等于num_virtual_tokens,因为prefix tuning和prompt tuning一样,首先把一段template加在原本的input的前面,因此seq_length就是11.leyers=24,hidden_size=2048。那么相乘就是11*2*24*2048. 步骤一中的embedding层的参数量是11*98304,这是可以对得上的。
现在的问题是,是否使用 Adapter 和 LoRA 等附加技术,或者使用 P-Tuning 和 Prefix Tuning 等基于提示的技术。 在比较 LoRA 与 P-Tuning 和 Prefix Tuning 时,可以肯定地说 LoRA 是充分利用模型的最佳策略。但根据您的需求,它可能不是最有效的。如果您想在与已训练的任务截然不同的任务上训练模型,LoRA 无...
基于清华开源的chatglm6b分别用lora和ptuning两种方式微调,没有使用量化的的情况下,lora需要29G显存,ptuning需要24G显存,最后用微调后的模型做推理需要13G显存(和原chatglm6b一样),供参考~ 参考这位大佬的帖子(感谢分享~):https://github.com/HarderThenHarder/transformers_tasks/tree/main/LLM/finetune 展开更多...
✅ P-Tuning: P-Tuning是一种高效微调预训练语言模型的方法,它通过引入可学习的连续提示来实现模型的微调。这些连续提示被转换成模型可以理解的嵌入表示,并经过LSTM和MLP结构处理,以捕捉复杂的任务依赖性。其优势在于其高效性和灵活性,能够在不改变原始模型其他参数的情况下,仅通过优化这些连续提示来适应不同的下游...