由于与LSTM相比有着更简单的架构,GRU的计算效率更高,训练速度更快,只需要更少的内存。 此外,GRU已被证明对于较小的序列更有效。 GRU的缺点 由于GRU没有单独的隐藏状态和细胞状态,因此它们可能无法像LSTM那样考虑过去的观察结果。 与RNN和LSTM类似,GRU也可能遭受反向传播及时更新权重的缺点,即死亡ReLu单元、梯度爆炸。
RNN、LSTM、GRU理解 一、RNN(循环神经网络) 1.1 RNN与全连接神经网络的区别 RNN比全连接神经网络多了参数h0,因此RNN的神经元公式比全连接神经网络的神经元多一项。 训练过程与全连接神经网络并无区别:梯度下降原则 此时输出层的神经元公式为: 整一个RNN结构共享1组(u,w,b),这是RNN结构最重要的特性,且每一...