Kerasの実装を見る限り、まずMomentumSGDと同じ計算で変更量を計算した後、次回でも同じ勾配であることを仮定することにより次回分のMomentumSGDの計算を行い、それを使って最終的な変更量を決定するようだ。仮定が入るので、ここは推定量となる。 以下は、MomentumSGDの実験と同じ設定で、nesterovをTrue...
requires_grad=True)tensor(1337.7185)[{'params':[tensor(10.,requires_grad=True),tensor(-41.5240,requires_grad=True)],'lr':0.1,'momentum':0,'dampening':0,'weight_decay':0,'nesterov':False}]
momentumAsTimeConstant: 同様にlearningratesPerSample、CNTKでは、単位ゲイン 1 次 IIR フィルターの時間定数(サンプル) として、ミニバッチ サイズに依存しない方法で勢いを指定します。 この値は、グラデーションが 1/e=37% の効果を持つサンプルの数を指定します。 他のツールキットでは...