DST的这些性质遵循语言情感信息的本质,同时极大地提高了模型的灵活性。此外,与可变形卷积网络(Deformable Convolutional Network,DCN)和在视觉领域中使用的类DCN注意力(图1(c))不同,DST对连续的tokens进行建模,使得DST更加遵循语音信号的连续性(图1(d))。在实验部分,我们将对不同的注意力机制进行可视化分析,以便直观...