• CNN:在卷积操作中,对于输入数据的不同部分(如图像的不同区域),卷积核的滑动操作是可以并行进行的。但是,在处理序列数据(如文本)时,由于序列的顺序性,CNN通常需要通过循环神经网络(RNN)等结构来处理,这在一定程度上限制了并行处理能力。 • Transformer:在处理序列数据时具有很强的并行处理能力。因为自注意力...
在深度递归神经网络(RNN),第n层的输入是第n-1层的组合,不是原始特征输入。随着训练的进行,归一化或白化的效果分别降低,这导致梯度消失(vanishing gradient)问题。这可能会减慢整个训练过程并导致饱和(saturation)。为了更好地训练,BN应用于深度神经网络的内部层。这种方法确保了理论上和基准测试(benchmarks)实验中更...
相似性:CNN通常是在空间域上 || RNN在时间域上 不同点:CNN的滤波器(注意力只看周围)是并行(更有效率) || RNN需要迭代、无法并行convolutional neural network可认为是低级的注意力机制,相关性集中在它的邻居,但没有全局观。 解决CNN没有全局观——>增加深度——>效率变差RNN无法处理真正的long term dependency...
cnn与transformer结合的模型 cnn和lstm结合效果不好 1: LSTM结构推导,为什么比RNN好? 答案:推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸; 2:梯度消失爆炸为什么? 答案:略 ...