深度学习必备随机梯度下降sgd优化算法及可视化bonelee博客园

2024-12-30 13:32:24

拼音 [ 拼音 ]

深度学习必备:随机梯度下降(SGD)优化算法及可视化 - bonelee - 博客...

批量梯度下降每次学习都使用整个训练集,因此其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新。随机梯度下降(Stochastic...
深度学习必备:随机梯度下降(SGD)优化算法及可视化 - bonelee - 博客...

批量梯度下降每次学习都使用整个训练集,因此其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新。随机梯度下降(Stochastic...