主要的更新在左边的encoder部分,其中是使用了prob-sparse注意力机制,代替了conformer中本来使用的 "香草“self-attention。 一,encoder编码器 左边的橙色部分。包括了下采样和位置编码层(注意,本文中使用的不是relative positional embedding)。然后就是若干conformer blocks。 使用公式表示就是: 编码器,x是输入的acoustic...