由于与LSTM相比有着更简单的架构,GRU的计算效率更高,训练速度更快,只需要更少的内存。 此外,GRU已被证明对于较小的序列更有效。 GRU的缺点 由于GRU没有单独的隐藏状态和细胞状态,因此它们可能无法像LSTM那样考虑过去的观察结果。 与RNN和LSTM类似,GRU也可能遭受反向传播及时更新权重的缺点,即死亡ReLu单元、梯度爆炸。