官方github 地址:https://github.com/THUDM/ChatGLM2-6B 论文地址:https://arxiv.org/pdf/2110.07602.pdf P-tuning v2 微调技术利用 deep prompt tuning,即对预训练 Transformer 的每一层输入应用 continuous …
P-tuning并不算是高效微调方法,和Prefix-tuning甚至是P-tuning v2都不一样。P-tuning在数据量充足的情况下需要更新模型全量参数以及prompt encoder部分参数,在小数据基础上可以只更新几个embedding部分参数。P-tuning的主要目的是让GPT更好的处理分类序列标注等NLU任务。 P-tuning主要解决了通过提示词控制语言模型输出...
P-Tuning v2提升小模型上的Prompt Tuning,最关键的就是引入Prefix-tuning[2]技术。 Prefix-tuning(前缀微调)最开始应用在NLG任务上,由[Prefix, x, y]三部分构成,如上图所示:Prefix为前缀,x为输入,y为输出。Prefix-tuning将预训练参数固定,Prefix参数进行微调:不仅只在embedding上进行微调,也在TransFormer上的embedd...
(v1) and P-tuning v2: This is because in P-tuning's SuperGLUE experiment, for fair comparison to PET, we follow its experimental setting where backbone pre-trained model parameters are jointly tuned with continuous prompt embeddings; while in P-tuning v2, we follow Prefix tuning and Lester ...
Our method P-Tuning v2 is an implementation of Deep Prompt Tuning \cite{li2021prefix,qin2021learning} optimized and adapted for NLU. Given the universality and simplicity of P-Tuning v2, we believe it can serve as an alternative to finetuning and a strong baseline for future research.Our ...
对于p-tuning v2 prompt的长度有很重要的作用,作者通过试验发现针对不同的任务,需要的prompt长度不同。并且通常任务越长prompt长度越长。 Multi-task Learning 使用多任务能对p-tuning v2有进一步的优化,这个应该是在针对某一个特定任务微调前使用多任务先预训练一下得到一组比较好的初始化参数。 下图是几种高效微调...
--- 4.2 P-tuning v2: 不同规模--- 4.3 P-tuning v2: 跨越任务--- 4.4 消融研究五、相关工作六、总结 一、简介 提示微调,只用一个冻结的语言模型来微调连续的提示,大大减少了训练时每个任务的存储和内存使用。然而,在NLU的背景下,先前的工作显示,提示微调对于正常大小的预训练模型来说表现并不理想。我们还...
3 P-tuning V2 深度连续提示微调学习 3.1 Lack of Universality Lack of Universality across scales 如前文所述,虽然prompt-tuning在大模型可以达到和finetune类似的效果但在小模型上并不可以。这极大的限制了prompt-tuning的应用 Lack of Universality across tasks 虽然prompt-tuning 在GLUE和SuperGLUE上都取得了不...
传统的单句分类任务,p-tuning 和 作者提出的 p-tuning v2效果都不错 但是在 自然语言推理(RTE数据集) 和 QA(BoolQ)数据集上 ,p-tuning的效果表现很差,而这些任务难度略高于单句分类。 此外,对于不同参数量的backbone,如Roberta & GLM,不难看出 Fine Tune 和 P-tuning两种方法的gap非常大,而作者提出的p-tun...
P-tuning V2的改进 相比于Li and Liang,2021的Prefix tuning用的MLP当作Reparameterization encoder,P-tuning V2用Embedding层。两者的对比如图所示 基于多任务数据集预训练,在适配下游任务 不采用Verbalizer,用模型原始的linear head。 效果差不多,但是linear head更加通用,方便适配序列标注等复杂NLU ...