在大多数情况下,Adam都能够比SGD更快地达到收敛状态。 适用场景 SGD:适用于处理大规模数据集,因为它每次迭代只计算一个样本或小批量样本的梯度,从而大大提高了计算效率。此外,在某些特定任务上,如某些深度学习模型中的特征选择或稀疏性约束方面,SGD可能表现得更好。 Adam:适用于各种不同的深度学习任务和数据集,因为它具有自适应学习率调整