自适应梯度算法(如 Adam、AdamW 及其变体)一直是这项任务的核心。尽管在过去的十年中开发出了许多旨在加速凸和非凸环境下随机优化的方差缩减算法,但在训练深度神经网络或大语言模型(LLM)方面,方差缩减算法并没有取得广泛的成功。因此,在现代人工智能中,它仍然是一种不太受欢迎的方法。