1. 是否选择合适的损失函数 神经网络的损失函数是非凸的,有多个局部最低点,目标是找到一个可用的最低点。 非凸函数是凹凸不平的,但是不同的损失函数凹凸起伏的程度不同,例如下述的平方损失和交叉熵损失,后者起伏更大,且后者更容易找到一个可用的最低点,从而达到优化的目的。 - Square Error(平方损失) - Cross...
1) BP算法;( 2)激活函数梯度小;( 3)神经网络层数多 BP算法是神经网络中应用最成功的的计算方法,前向计算数值,向后传播误差;在传播误差的时候会更新BP中的参数,更新是通过梯度进行传播的,如果在求解梯度的过程中,梯度值一直很小就会造成整个误差传播变小,一般损失函数的梯度都不小,但是激活函数的梯度会比较小(...