key_padding_mask指的是在encoder和Decoder的输入中,由于每个batch的序列长短不一,被padding的内容需要用...
importmathimporttorchimporteinops# 填充掩码解释key_padding_mask=torch.tensor([[0,0,1,1]]).bool(...
key_padding_mask的shape为(batch_size, source_length),这意味着每个位置的query,他所看到的画面经过...