缺点:容易产生梯度消失;输出不是0均值,这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入,随着网络的加深,会改变数据的原始分布;收敛较慢(可以用batch缓解);含幂运算,耗时。 (2)tanh函数 应用:LSTM;二分类任务的输出层;隐藏层 优点:输出是0均值 缺点:梯度消失的问题仍存在,有幂运算 (3)Relu函...