本以为BERT中使用的是用烂了的Adam,一看源码发现是重写的优化器,叫AdamWeightDecayOptimizer,本来Adam都没太搞懂,又来一个WeightDecay,一起学一下吧。 不查不知道,一查吓一跳,2014年被提出的Adam优化器的收敛性被证明是错误的,之前大部分机器学习框架中对于Adam的权重衰减的实现也都是错误的。关注其收敛性的论文...