classEncoder(nn.Module):def__init__(self,**kwargs)->None:super(Encoder,self).__init__(**kwargs)defforward(self,X,*args):raise NotImplementedErrorclassDecoder(nn.Module):def__init__(self,**kwargs):super(Decoder,self).__init__(**kwargs)definit_state(self,enc_outputs,*args):raise N...
"而Cross Attention模块Q、K是Encoder的输出"应该是encoder的K,V是encoder的输出吧,decoder侧作为Q,因为Q是带有mask的信息只是做一个权重作用,右下角那块是从起始符号一个个生成的,然而整个任务的主体应该是我们在encoder侧的输入,所以V肯定来自于左边encoder的结果,至于Q和K来自哪里:如果Q来自于encode,那么cross a...