OpenAI 首席执行官Sam Altman,提出了“一个新版本摩尔定律”,我们把它叫做阿尔特曼定律: “宇宙中的智能数量将在每18 个月后翻一番。”大模型的参数量超过人类后,会发生什么? 人类大脑约有1000亿个神经元和100万亿个突触,它们之间遵循着很简单的规则,但却涌现出了我们的意识和智慧。
方法:MosLoRA将子空间混合进行到极致,设模型维数为d,LoRA的秩为r,原始版本的LoRA就是d x r 和r x d的两个变换,MosLoRA在中间加了个r x r的参数矩阵对各维度进行混合。由于r远小于d,增加的额外参数量很小。 实验:如p4,作者在l 发布于 2024-07-07 02:02・IP 属地北京 ...
核心思想:如图2所示,把dxk维的权重W分解为1xk维的magnitue (m)和二范数为1的方向向量v,对v分解做LoRA训练,同时m也可以训练(更有效地控制合并后参数的magnitude)。 实验效果:在可训练参数量基本相等的前提下,对LLaMa(图三)、 LLaV、VL-BART等纯语言和多模态预训练模型的下游任务微调性能超过LoRA。