这样做既可以保证继承了Adam的优点,还能保证学习率在持续的迭代中,是遵守优化算法中要求的“正定性”的原则的,所以,在理论上AMSGrad算法比Adam算法更有稳定迭代的保障。但是在实际使用中,AMSGrad与Adam的结果一般都很相似。所以,当Adam表现不好时,你可以试试AMSGrad,有可能会得到出意想不到的好结果。 3、优化算法的...
根据文献[2]所述,一系列的类Adam算法即使面对非convex目标函数依然具有收敛性,判定收敛的指标正是 E\left(T\right) 。接下来我们就以Amsgrad为例来给出证明。 2.1 补充前提假设 根据文献[2],我们需要补充两个关于 \left\{ \mathbf{g}_{t}\right\} 的前提假设: \mathbf{g}_{t} 有上界: \left\Vert \...
在此背景下,我们引入了Amsgrad算法,它能最大化保留Adam算法的原貌,同时克服Adam算法在收敛性证明上的局限性。Amsgrad算法通过迭代更新变量,利用梯度历史信息来优化学习过程,确保在非凸目标函数下仍能实现收敛。为了证明Amsgrad算法的收敛性,我们首先补充了关于算法变量的两个前提假设。接着,我们通过数学...