常见的优化算法有: i、随机梯度下降(SGD) 每次只使用一个样本计算梯度 简单直接但效率低下 很容易波动 ii、 Mini-Batch GD 每次使用一个小批次样本计算梯度 效率比SGD高,效果更稳定 iii、Momentum 使用动量项来加速梯度下降 平滑波动,加速收敛 iv、Nesterov Accelerated Gradient (NAG) 改进的Momentum方法,效果更好。