adam优化器的weight+decay

2024-11-30 07:35:24

拼音 [ 拼音 ]

跟着代码理解BERT中的优化器AdamW(AdamWeightDecayOptimizer...

在代码中也做了一些注释用于对应之前给出的Adam简化版公式,方便理解。可以看出update += self.weight_decay_rate * param这一句是Adam中没有的,也就是Adam中绿色的部分对应的代码,weightdecay这一步是是发生在Adam中需要被更新的参数update计算之后,并且在乘以学习率learning_rate之前,这和图片中的伪代码的计算顺序...
...框架支持的优化器有以下哪几种? A. Adam B. AdamWeightDecay C...

百度试题结果1 题目MindSpore深度学习框架支持的优化器有以下哪几种? A. Adam B. AdamWeightDecay C. MSELoss D. Momentum 相关知识点: 试题来源: 解析 ABD 反馈收藏
跟着代码理解BERT中的优化器AdamW(AdamWeightD

可以看出update += self.weight_decay_rate * param这一句是Adam中没有的,也就是Adam中绿色的部分对应的代码,weightdecay这一步是是发生在Adam中需要被更新的参数update计算之后,并且在乘以学习率learning_rate之前,这和图片中的伪代码的计算顺序是完全一致的。总之一句话,如果使用了weightdecay就不必再使用L2正则化...