1.优化器:从SGD到Adam到AdamW2024-09-292.浅谈位置编码(RoPE)2024-03-253.激活函数和GLU2024-10-29 收起 1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是WW,随机选择一批样本组成一个batch,输入模型计算loss:L=f(X,Y;W)L=f(X,Y;W),并求出梯度,更新...
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW 1.梯度下降算法(优化器) 1.1 原理解释 如果我们定义了一个机器学习模型,比如一个三层的神经网络,那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何评价模型对于数据的拟合是否足够呢?那就需要使用相应的指标来评价它的...
下表列举了自然语言处理(NLP),计算机视觉(CV),推荐系统(Recommendation System,RS),强化学习(Reinforcement Learning,RL)这四个方向的主流模型使用优化器的情况,可以看出在NLP领域AdamW(AdamWeightDecayOptimizer)使用比较普遍,CV领域SGD和momentum使用比较普遍,推荐领域比较杂,强化学习领域Adam使用比较普遍。 依据计算目标函...
下表列举了自然语言处理(NLP),计算机视觉(CV),推荐系统(Recommendation System,RS),强化学习(Reinforcement Learning,RL)这四个方向的主流模型使用优化器的情况,可以看出在NLP领域AdamW(AdamWeightDecayOptimizer)使用比较普遍,CV领域SGD和momentum使用比较普遍,推荐领域比较杂,强化学习领域Adam使用比较普遍。 依据计算目标函...
AdamW对这个问题的改进就是将权重衰减和Adam算法解耦,让权重衰减的梯度单独去更新参数,改动点如下图所示: 绿色部分是AdamW改动的地方,红色的部分是Adam原有的运算过程。 AdamW算法是目前最热门的优化器,包括LLama2等大模型训练都采用的是AdamW。 3. 小结 至此,我们已经讲完了市面上最流行的各种优化器。可以看到,技...
通过数学推导可知,在adam更新参数时因为正则项是合并到损失函数中进行一起计算的,学习率因为带有损失函数的累计平方和因此会对正则化项产生缩放作用,导致实际正则化效果不明显(L1、L2都会受影响),因此adamw优化器将残差平方和与正则化项进行解耦,在梯度更新时让正则化项如SGDM更新一样,直接作用于wi参数的迭代,而不是...
极低内存消耗:首次以类 SGD 内存成本完成大模型训练,达到甚至超越 AdamW 的性能。无需 SVD 计算:首次实现仅需轻量级随机投影进行大模型预训练,甚至在 7B 模型上优化速度超越 Adam。卓越系统性能 3 倍预训练加速:在 8 块 A100 GPU 上,APOLLO 预训练 LLaMA 7B 模型实现了 3 倍的加速。突破规模限制:首次...
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW 1.梯度下降算法(优化器) 1.1 原理解释 如果我们定义了一个机器学习模型,比如一个三层的神经网络,那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何评价模型对于数据的拟合是否足够呢?那就需要使用相应的指标来评价它...
下表列举了自然语言处理(NLP),计算机视觉(CV),推荐系统(Recommendation System,RS),强化学习(Reinforcement Learning,RL)这四个方向的主流模型使用优化器的情况,可以看出在NLP领域AdamW(AdamWeightDecayOptimizer)使用比较普遍,CV领域SGD和momentum使用比较普遍,推荐领域比较杂,强化学习领域Adam使用比较普遍。