1、当网络过拟合时,可以采用的方式是正则化(regularization)与丢弃法(dropout)以及BN层(batch normalization),正则化中包括L1正则化与L2正则化,在LSTM中采用L2正则化。另外在使用dropout与BN层时,需要主要注意训练集和测试集上的设置方式不同,例如在训练集上dropout设置为0.5,在验证集和测试集上dropout要去除。 2、...
在LSTM中添加attention机制有多种方式,其中一种常见的方法是使用Bahdanau attention机制。 定义attention权重计算函数:一般使用前馈神经网络来计算attention权重。该函数接收LSTM的隐藏状态(通常是最后一个时间步的隐藏状态)和所有时间步的输入特征,输出注意力权重。 计算注意力权重:将LSTM的隐藏状态和输入特征传入attention权重...