·LoRA/QLoRA:主要关注降低微调的计算量、显存占用以及保持模型在下游任务上的性能,和 RLHF、偏好优化等“训练目标”无关,属于参数高效微调的方法。 ·DPO/ORPO:主要关注用人类偏好或奖励模型去约束/指导模型输出质量,属于训练目标或训练范式的改进,与是否使用 LoRA、QLoRA 并不冲突,可以结合到一起(比如 “用 QL...
通过LoRA微调,可以在保持模型性能的同时,显著降低计算成本,使其更适合在资源受限的环境下应用。 而QLoRA微调技术则是在LoRA的基础上进一步优化而来。它引入了量化技术,通过冻结的4位量化预训练语言模型来传播梯度到低秩适配器(LoRA),从而在不降低性能的情况下实现更加高效的微调。这一创新使得在单个GPU上微调超大型参数...
LoRA与QLoRA的区别 https://zhuanlan.zhihu.com/p/688993851 小丑_jk 粉丝-8关注 -0 +加关注 0 0 升级成为会员
与LoRA不同,QLoRA不仅对权重进行压缩,还对激活值进行压缩。具体来说,QLoRA将模型的中的权重和激活值存储为整数,并使用量化器将其转换为定点数。这样,可以大大减小模型大小和内存占用。 QLoRA技术的优点在于其高压缩率和低精度计算。与其他压缩技术相比,QLoRA可以获得更高的压缩率,从而减小模型大小和内存占用。此外,...