Adam 简单来讲Adam算法就是综合了 Momentum 和 RMSProp 的一种算法,其既记录了历史梯度均值作为动量,又考虑了历史梯度平方和实现各个参数的学习率自适应调整,解决了 SGD 的上述两个问题。
几种优化算法(SGD, Adam, RMSPROP, BGD,MBGD, Momentum,)的比较,程序员大本营,技术文章内容聚合第一站。
可以观察其表达式:早期的历史梯度平⽅和会逐渐失去影响⼒,系数逐渐衰减。Adam 简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的⼀种算法,其既记录了历史梯度均值作为动量,⼜考虑了历史梯度平⽅和实现各个参数的学习率⾃适应调整,解决了 SGD 的上述两个问题。