八、优化算法:GD、SGD、动量法、AdaGrad、RMSProp、Adam、AMSGrad 优化算法是深度学习中的关键环节,我们经常说的炼丹主要指的就是这个环节。 1、优化算法是解决什么的?优化算法的种类? 我们已经知道,当样本数据正向传播一次,就会得到网络的一次预测,而网络的预测和样本标签又构成了我们的损失loss,我们的目标就是让loss...
2 Amsgrad算法 文献[1]最早提出了Amsgrad。Amsgrad能够最大限度地保留Adam算法的原貌同时克服Adam在收敛性证明中的缺陷。Amsgrad的变量迭代式如下:( \mathbf{m}^{(0)}、 \mathbf{v}^{(0)} 初始化为 \mathbf{0}, \boldsymbol{\theta}^{(1)} 随机初始化) \begin{aligned} & \mathbf{m}^{(t)}=\beta...