深度学习算法的科普文章网上已有千千万万(推荐Ruder写的[1]),然而它们大多是介绍算法本身或者是总结各种算法、比较各个算法的异同,并不涉及算法的收敛性证明。收敛性证明既是衡量算法有效性的重要指标,又是提出新算法的思想源泉;也就是说,掌握现有算法的收敛性证明可以帮助我们构造出新的算法(最终实现批量生产顶会文章...
1.1 回顾SGD 在科研喂饭系列的第一篇文章里,我们学习了最朴素的SGD算法(大厂推荐算法:【强基固本】深度学习算法收敛性证明)以及它在目标函数为convex函数时的收敛性证明。朴素SGD的变量迭代表达式: 其中 是学习率, 是 时刻目标函数 在 处的梯度。它的收敛性证明基于以下前提假设(来自参考文献[1, 第2.1节] ): ...
《让炼丹更科学一些(一):SGD的平均收敛趋势》链接在这篇文章中,我们重温了一篇凸优化的旧论文,介绍了SGD的一个非常基础的收敛性证明:在适当(实际上非常强)的假设下,SGD的收敛性可以得到保证。尽管这些假设在实际应用中可能并不总是成立,例如凸函数假设和梯度模长的限制,但这些理论结果仍能为我们提供了关于SGD收敛...