将参数传入上述的self.self_att后,对于接收到的query、key、value使用下面的代码,再次进行一次调用,在这次调用的self.attention方法内才会真正进行softmax(QK)V的注意力运算。 out=self.attention(queries,keys,values,attention_mask)out=self.dropout(out) 值得注意的是,在此处调用self.attention时传入的queries、keys...
将参数传入上述的self.self_att后,对于接收到的query、key、value使用下面的代码,再次进行一次调用,在这次调用的self.attention方法内才会真正进行softmax(QK)V的注意力运算。 out=self.attention(queries,keys,values,attention_mask)out=self.dropout(out) 值得注意的是,在此处调用self.attention时传入的queries、keys...