在第1个decoder_layer中,首先使用masked self-attention进行处理,将形状为(10,3,512)的input作为query、key、value,经过运算后得到(10,3,512),记为context;接下来,使用cross-attention进行处理,context作为query,encoder_out作为key和value,经过运算后得到形状为(10,3,512)的张量。 在第2个decoder_layer中,进行同...
你会先把<Start>作为序列,输入到masked self-attention层,预测结果是y1 然后把<Start> y1作为序列,输入到masked self-attention层(和训练时一样,都会用到mask矩阵来实现masked self-attention层的神经元连接方式),预测结果是y1, y2(由于可能有dropout,这个y1可能与第一步的y1稍微有点不同) 把<Start> y1 y2作...
图1 图1是没有mask的self-attention layer, 图2是有mask的 mask在图2中是一个a,b,c,d组成的2x2矩阵,之所以是2x2是因为假设了输入和输出序列长度就是2。这里A=K1 * Q1, B=K1*Q2,也就是说B其实就是第二个序列对于第一个序列的attention,然而在decode的时候,想要遵循“no peeking ahead”的原则,B就必...
在第1个decoder_layer中,首先使用masked self-attention进行处理,将形状为(10,3,512)的input作为query、key、value,经过运算后得到(10,3,512),记为context;接下来,使用cross-attention进行处理,context作为query,encoder_out作为key和value,经过运算后得到形状为(10,3,512)的张量。 在第2个decoder_layer中,进行同...