sigmod函数作为激活函数曾经比较流行。 缺陷 当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零。当反向传播经过了sigmod函数,这个链条上的微分就很小很小了,况且还可能经过很多个sigmod函数,最后会导致权重w对损失函数几乎没影响,这样不利于权重的优化,这个问题叫做梯度饱和,也可以叫梯度弥散。 函数输出不是...